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内 容 简介 


本 书 是 MySQL 领域 的 经 典 之 作 ， 拥 有 广泛 的 影响 力 。 第 3 版 更 新 
了 大 量 的 内 容 ， 不 但 涵盖 了 最 新 MySQL 5.5 版 本 的 新 特性 ， 也 讲述 了 
关于 固态 盘 、 高 可 扩展 性 设计 和 云 计算 环境 下 的 数据 库 相 关 的 新 内 
容 ， 原 有 的 基准 测试 和 性 能 优化 部 分 也 做 了 大 量 的 扩展 和 补充 。 全 书 
共 分 为 16 章 和 6 个 附录 ， 内 容 涵盖 MySQL 架 构 和 历史 ， 基 准 测 试 和 性 
能 剖析 ， 数 据 库 软 硬件 性 能 优化 ， 复 制 、 备 份 和 恢复 ， 高 可 用 与 高 可 
扩展 性 ， 以 及 云端 的 MySQL 和 MySQL 相 关 工 具 等 方面 的 内 容 。 每 一 
章 都 是 相对 独立 的 主题 ， 读 者 可 以 有 选择 性 地 单独 阅读 。 


本 书 不 但 适合 数据 库 管理 员 (DBA) 阅读 ， 也 适合 开发 人 员 人 参考 
学 习 。 不 管 是 数据 库 新 手 还 是 专家 ， 相 信 都 能 从 本 书 有 所 收获 。 


©2012 by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko. 


Simplified Chinese Edition, jointly published by O'Reilly Media, Inc. and 
Publishing House of Electronics Industry, 2013. Authorized translation of 
the English edition, 2012 O'Reilly Media, Inc., the owner of all rights to 


publish and sell the same. 


All rights reserved including the rights of reproduction in whole or in part 


in any form. 


本 书简 体 中 文 版 专 有 出 版 权 由 O'Reilly Media，Inc. 授 予 电 子 工业 出 版 
社 。 未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 的 任何 部 分 。 专 有 出 
版 权 受 法 律 保护 。 


版 权 贸 易 合同 登记 号 图 字 : 01-2013-1661 


图 书 在 版 编目 (CIP) 数据 


高 性 能 MySQL : 第 3 版 (Š) Wik (Schwartz, B.) ，( 美 ) 扎 伊 
KA (Zaitsev, P.) ， (FH) 特 卡 琴 科 (Tkachenko, V.) 著 ; 宁海 元 
等 译 . 一 北京 : 电子 工业 出 版 社 ，2013.5 


书 名 原文 : High Performance MySQL, Third Edition 
ISBN 978-7-121-19885-4 


|. Os... Il. O... L... ©... ©F... 川 ，Q@ 关 系数 
据 库 系统 IV. CDTP311.138 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2013) 第 054420 号 


策划 编辑 : 
责任 编辑 : 


封面 设计 : 


出 版 发 行 : 


all: 


Ly 


张 春 雨 


Karen Montgomery 张 健 
三 河 市 塞 金 马 印 装 有 限 公司 
三 河 市 讲 金 马 印 装 有 限 公司 
电子 工业 出 版 社 


北京 市 海淀 区 万 寿 路 173 信 箱 ”邮编 100036 


开 
印 
字 
印 


mo 


KE 


本 : 
张 : 


787x980 1/16 


50 


: 1040 F£ 
: 2013 年 5 月 第 1 次 印刷 


介 : 128.00 元 


凡 所 购买 电子 工业 出 版 社 图 书 有 和 缺损 问题 ， 请 向 购买 书店 调换 。 若 书 
店 售 缺 ， 请 与 本 社 发 行 部 联系 ， 联 系 及 邮购 电话 : (010) 88254888。 


质量 投诉 请 发 邮件 至 zlts@phei.com.cn ， 资 版 侵权 举报 请 发 邮件 至 
dbqq@phei.com.cno 


服务 热线 : (010) 88258888。 


O'Reilly Media, Inc. NA 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研 究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O'Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 
趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 
为 技术 社区 中 活跃 的 参与 者 ，O'Reilly 的 发 展 充 满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 商业 
网 站 (GNN) ;组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 
运动 以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 音 命 的 主要 先锋 ; 公 
司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O'Reilly 的 会 议和 峰 
会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产 
业 的 革命 性 思想 。 作 为 技术 人 士 获 取信 息 的 选择 ，O'Reilly 现 在 还 将 先 
锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 
服务 或 者 面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动 播 的 理 
言 息 是 激发 创新 的 力量 。 
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“O'Reilly Radar 博 客 有 口 此 碑 。” 
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Wired 


“OReilly 和 凭借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 
数 百 万 美元 的 业务 。” 


Business 2.0 


“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
—CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 有 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 贫 路 
口 ， 走 小 路 (2) 。 :回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 
有 几 次 都 是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 不 钳 。” 


Linux Journal 


译 者 序 

在 互联 网 行业 ，MySQL 数 据 库 毫 无 疑问 已 经 是 最 常用 的 数据 库 。 
LAMP (Linux 十 Apache 十 MySQL 十 PHP) 甚至 已 经 成 为 专 有 名 词 ， 也 
是 很 多 中 小 网 站 建站 的 首选 技术 架构 。 我 所 在 的 公司 淘宝 网 ， 在 2003 
年 非典 肆虐 期 间 创 立时 ， 选 择 的 就 是 LAMP 架 构 ， 当 时 MySQL 的 版 本 
还 是 4.0。 但 是 到 了 2003 年 底 ， 由 于 业务 超 预期 的 增长 ，MySQL 4.0 
(当时 用 的 还 是 MyISAM5 引 和 擎 ) 的 很 多 缺点 在 高 并 发 大 压力 下 暴露 了 
出 来 ， 于 是 技术 上 开始 改 用 商业 的 Oracle 数 据 库 。 随 后 几 年 Oracle 加 小 
型 机 和 高 端 存储 的 数据 库 架 构 支 撑 了 淘宝 网 业务 的 爆炸 式 增 长 ， 数 据 
库 也 从 最 初 的 两 三 个 库 增 长 到 十 几 个 库 ， 并 且 每 个 库 的 硬件 已 经 逐步 
升级 到 顶 配 , “和 天花板 ”很 明显 地 摆 在 了 眼前 。 于 是 在 2008 年 ， 基 于 PC 
服务 器 的 MySQL 数 据 库 再 次 成 为 DBA 团 队 的 选择 ， 这 时 候 MySQL 的 
稳定 版 本 已 经 升级 到 5.0， 并 且 5.1 也 已 经 在 开发 中 ， 性 能 和 特性 相对 于 
2003 年 的 时 候 已 经 有 了 非常 大 的 提升 。 淘 宝 网 的 数据 库 架 构 也 逐渐 从 
垂直 拆 分 走向 水 平 拆 分 ， 在 大 规模 水 平 集群 的 架构 设计 中 ， 开 源 的 
MySQL 受到 的 关注 度 越 来 越 高 ， 并 且 一 年 多 来 的 实践 也 证 明了 
MySQL (存储 引擎 主要 使 用 的 是 mnoDB) 在 高 压力 下 的 可 用 性 。 于 是 
从 2009 年 开始 ， 后 来 颇 受 外 界 关 注 的 所 谓 “ 去 IOE” 开 始 实 施 ， 经 过 三 
年 多 的 架构 改造 ， 到 2012 年 整个 淘宝 网 的 核心 交易 系统 已 经 全 部 运行 
在 基于 PC 服务 器 的 MySQL 数 据 库 集群 中 ， 全 部 实例 数 超过 2000 个 。 今 
年 的 “ 双 11” 大 促 中 ，MySQL 单 库 经 受 了 最 高 达 6.5 万 的 QPS， 某 个 拥有 
32 个 节点 的 核心 集群 的 总 QPS 则 稳定 在 86 万 以 上 ， 并 且 在 整个 大 促 
(包括 之 前 三 年 的 “ 双 11” 大 促 ) 期 间 ， 数 据 库 未 发 生 过 任何 影响 大 促 
的 重大 故障 。 当 然 ， 这 个 结果 ， 也 得 益 于 淘宝 网 整个 应 用 架构 的 设 
计 ， 以 及 这 几 年 来 革命 性 的 闪存 设备 的 迅猛 发 展 。 


2008 年 ， 淘 宝 DBA 团 队 准 备 从 Oracle 转 向 MySQL 的 时 候 ， 团 队 中 
的 大 多 数 人 对 MySQL 的 了 解 都 非常 之 少 。 当 时 国内 技术 圈 对 MySQL 
的 讨论 也 不 多 见 ， 网 上 能 找到 的 大 多 数 中 文 资料 基本 上 关注 的 还 是 如 
何 安装 ， 如 何 配置 主 备 复 制 等 。 而 MySQL 中 文 类 的 书籍 ， 大 部 分 还 是 
和 PHP 放 在 一 起 ， 作 为 PHP 开 发 中 的 一 环 来 讲述 的 。 所 以 当 我 们 发 现 
mysqlperformanceblog.com 这 个 相当 专业 的 国外 博客 的 时 候 ， 无 不 欣喜 
莫名 。 同 时 也 知道 了 博客 的 作者 们 2008 年 出 版 的 High Performance 
MySQL 第 二 版 《中文 版 于 2010 年 1 月 出 版 ) ， 这 本 书 被 很 多 MySQL 
DBA 们 奉 为 圭 泉 ， 书 的 三 位 主要 作者 Baron Schwartz, Peter Zaitsev 和 
Vadim Tkachenko 也 在 MySQL DBA 圈 中 耳熟能详 ， 他 们 组 建 的 Percona 
公司 和 Percona Server 分 支 版 本 以 及 XtraDB 存 储 引 擎 也 逐渐 为 国内 DBA 
所 熟知 。2011 年 12 月 ， 淘 宝 网 和 O'Reilly 在 北京 联合 举办 的 Velocity 
China 2011 技 术 大 会 上 ， 我 们 有 盏 邀请 到 Percona 公 司 的 华人 专家 季 海 
东 (目前 已 离职 ) 来 介绍 MySQL 5.5 InnoDB/XtraDB 的 性 能 优化 和 诊 
断 方法 。 在 季 海 东 先 生 的 引荐 下 ， 我 们 也 和 Peter 通 过 Skype 电 话 会 议 
有 过 沟通 ， 介 绍 了 MySQL 在 淘宝 的 应 用 情况 ， 我 们 对 MySQL 一 些 特 
性 的 需求 ， 以 及 对 MySQL 做 的 一 些 patch， 并 随后 保持 了 密切 的 邮件 联 
系 。 有 了 这 些 铺 垫 ， 我 们 对 于 在 生产 系统 中 采用 Percona Server 5.5 也 
有 了 更 大 的 信心 ， 如 今 已 有 超过 1000 个 Percona Server 5.5 的 实例 在 线 
上 运行 。 所 以 今年 上 半年 电子 工业 出 版 社 的 张 春 雨 〈 侠 少 ) 编辑 找到 
我 来 翻译 本 书 的 第 三 版 的 时 候 ， 很 是 激动 ， 一 口 应 承 。 


考虑 到 这 么 经 典 的 书 应 该 尽快 地 和 读者 见面 ， 故 此 我 邀请 了 团队 
中 的 MySQL 专 家 周 振兴 GER: WS) . ir, SRS ER: 印 
风 ) . XU GER: I) 一 起 来 翻译 。 其 中 ， 我 负责 前 、 推 荐 序 和 
第 1、2、3 章 ， 周 振兴 负责 第 5、6、7 章 ， 彭 立 勋 负责 第 4、8、9、14 
章 ， 翟 卫 祥 负责 第 10、11、12、13 章 ， 刘 辉 负 责 第 15、16 章 和 附录 部 


分 ， 最 后 由 我 负责 统 稿 。 所 以 毫 无 疑问 ， 这 本 书 是 团队 合作 的 结晶 。 
虽然 我 们 满怀 激情 ， 但 由 于 都 是 第 一 次 参与 翻译 技术 书籍 ， 确 实 对 困 
难 有 些 预 估 不 足 ， 加 上 下 半年 为 了 准备 “ 双 11” 等 各 种 大 促 ， 需 要 在 
DBA 团 队 满 负 葆 的 工作 间 阶 挤 出 个 人 时 间 ， 初 稿 出 来 后 ， 由 于 每 个 人 
翻译 风格 不 太一 致 ， 几 次 审 稿 修订 ， 也 让 本 书 的 编辑 李 云 静 和 白 涛 吃 
了 不 少 苦头 ， 在 此 对 大 家 表示 深 深 的 感谢 ， 是 大 家 不 懈 的 努力 ， 才 使 
得 本 书 能 够 顺利 地 和 读者 见面 。 但 书 中 肯定 还 存在 不 少 问题 ， 奶 请 读 
者 不 音 指 出 ， 欢 迎 大 家 和 我 的 新 浪 微 博 http://weibo.com/NinGoo 进 行 互 
动 。 


同时 还 要 感谢 本 书 第 二 版 的 译 者 们 ， 他 们 娴熟 的 语言 技巧 给 了 我 
们 很 多 的 参考 。 也 要 感谢 帮助 审 稿 的 同事 们 ， 包 括 但 并 不 仅 限 于 张 新 
$8 (468%: RA). Kia 〈 花 名 : 张 瑞 ) 、 吴 学 章 ( 花 名 : 维 西 ) 
等 ， 彭 立 勋 甚至 还 发 动 了 他 女 朋 友 加 入 到 审 稿 工作 中 ， 在 此 一 并 表示 
感谢 。 当 然 ， 最 后 还 要 感谢 我 的 妻子 Lalla， 在 我 占用 了 大 量 周 末 时 间 
的 时 候 能 够 给 予 文 持 ， 并 承担 了 全 部 的 家 务 ， 让 我 以 译 书 为 借口 宫 无 
心理 负担 地 偷懒 。 


宁海 元 ( 花 名 : 江枫 ) 


2013 年 3 月 于 余杭 
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推荐 序 


很 多 年 前 我 就 是 这 本 书 的 “粉丝 "了 ， 这 是 一 本 伟大 的 书 ， 第 三 版 
尤其 如 此 。 这 些 世界 级 的 专家 不 仅仅 分 享 他 们 的 专业 知识 ， 也 伦 了 很 
多 时 间 来 更 新 和 添加 新 的 章节 ， 且 都 是 高 品质 的 内 容 。 本 书 有 大 量 关 
于 如 何 获 得 MySQL 高 性 能 的 细节 信息 ， 并 且 关 注 的 是 提升 性 能 的 过 
程 ， 而 不 仅仅 是 描述 事实 结果 和 珊 碎 的 细 极 末节 。 这 本 书 将 告诉 读者 
如 何 将 事情 做 得 更 好 ， 不 管 MySQL 在 不 同 版 本 中 的 行为 有 多 么 大 的 改 
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窗 无 疑问 ， 本 书 的 作者 是 唯一 有 资格 来 写 这 么 一 本 书 的 人 ， 他 们 
经 验 丰 富 ， 有 合理 的 方法 ， 关 注 效率 ， 并 且 精 益 求 精 。 说 到 经 验 丰 
富 ， 本 书 的 作者 已 经 在 MySQL 性 能 领域 工作 多 年 ， 从 MySQL 还 没有 
什么 可 扩展 性 和 可 测量 性 的 时 代 ， 直 到 现在 这 些 方面 已 经 有 了 长 足 的 
进步 。 而 说 到 合理 的 方法 ， 他 们 简直 把 这 件 事 情 当 成 了 科学 ， 首 先 定 
义 需 要 解决 的 问题 ， 然 后 通过 合理 的 猜测 和 精确 的 测量 来 解决 问题 。 


我 对 作者 在 效率 方面 的 关注 尤其 印象 深刻 。 作 为 顾问 ， 他 们 时 间 
宝贵 。 客 户 是 按照 他 们 的 时 间 付 费 的 ， 所 以 都 希望 能 更 快 地 解决 问 
题 。 所 以 本 书 作者 定义 了 一 整套 的 流程 ， 开 发 了 很 多 的 工具 ， 让 事情 
变 得 正确 和 高 效 。 在 本 书 中 ， 作 者 详细 描述 了 这 些 流程 ， 并 且 发 布 了 
工具 的 产 代 码 。 

最 后 ， 本 书 作 者 在 工作 上 一 直 精 益 求 精 。 比 如 从 吞吐 量 到 响应 时 


间 的 关注， 致力 于 了 解 MySQL 在 新 硬件 上 的 性 能 表现 ， 追 求 新 的 技能 
如 排队 理论 对 性 能 的 影响 ， 等 等 。 


我 相信 本 书 预示 了 MySQL 的 光明 前 景 。MySQL 已 经 支持 高 要 求 
的 工作 负载 ， 本 书 作者 也 在 努力 提升 MySQL 社 区 内 对 性 能 的 认识 。 同 
时 ， 他 们 还 直接 为 性 能 提升 做 出 了 贡献 ， 包 括 XtraDB 和 XtraBackup。 
一 直 以 来 我 从 他 们 身上 学 到 了 不 少 东西 ， 也 希望 读者 多 花 点 时 间 读 读 
AB, 一定 会 同样 有 所 收益 。 


Mark Callaghan，Facebook 软 件 工程 师 
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我 们 写 这 本 书 不 仅仅 是 为 了 满足 MySQL 应 用 开发 者 的 需求 ， 也 是 
为 了 满足 MySQL 数 据 库 管理 员 的 需要 。 我 们 假定 读者 已 经 有 了 一 定 的 
MySQL 基 础 。 我 们 还 假定 读者 对 于 系统 管理 、 网 络 和 类 Unix 的 操作 系 
统 都 有 一 些 了 解 。 


本 书 的 第 二 版 为 读者 提供 了 大 量 的 信息 ， 但 没有 一 本 书 是 可 以 涵 
盖 一 个 主题 的 所 有 方面 的 。 在 第 二 版 和 第 三 版 之 间 的 这 段 时 间 里 ， 我 
们 记录 了 效 以 生计 有 趣 的 问题 ， 其 中 有 些 是 我 们 解决 的 ， 也 有 一 些 是 
我 们 观察 到 其 他 人 解决 的 。 当 我 们 在 规划 第 三 版 的 时 候 发 现 ， 如 果 要 
把 这 些 主题 完全 和 覆盖， 可 能 三 干 页 到 五 千 页 的 篇 幅 都 还 不 够 ， 这 样本 
书 的 完成 就 遥遥 无 期 了 。 在 反思 这 个 问题 后 ， 我 们 意识 到 第 二 版 强调 
的 广泛 的 覆盖 度 事实 上 有 其 自身 的 限制 ， 从 某 种 意义 上 来 说 也 没有 引 
导读 者 如 何 按照 MySQL 的 方式 来 思考 问题 。 


所 以 第 三 版 和 第 二 版 的 关注 点 有 很 大 的 不 同 。 我 们 虽然 还 是 会 
含 很 多 的 信息 ， 并 且 会 强调 同样 的 诸如 可 靠 性 和 正确 性 的 目标 ， 但 我 
们 也 会 在 本 书 中 尝试 更 深入 的 讨论 : 我 们 会 指出 MySQL 为 什么 会 这 样 
做 ， 而 不 是 MySQL 做 了 什么 。 我 们 会 使 用 更 多 的 演示 和 案例 学 习 来 将 
上 述 原 则 落地 。 通 过 这 样 的 方式 ， 我 们 希望 能 够 尝试 回 到 下 面 这 样 的 
问题 “给 出 MySQL 的 内 部 结构 和 操作 ， 对 于 实际 应 用 能 带 来 什么 帮 
助 ? 为 什么 能 有 这 样 的 帮助 ?如 何 让 MySQL 适 合 (或 者 不 适合 ) 特定 
的 需求 ? ” 


最 后 ， 我 们 希望 关于 MySQL 内 部 原理 的 知识 能 够 帮助 大 家 解决 本 
书 没有 覆盖 到 的 一 些 情况 。 我 们 更 希望 读者 能 培养 发 现 新 问题 的 洞察 


力 ， 能 学 习 和 实践 合理 的 方式 来 设计 、 维 护 和 诊断 基于 MySQL 的 系 


统 。 


本 书 是 如 何 组 织 的 


本 书 涵盖 了 许多 复杂 的 主题 。 在 这 里 ， 我 们 将 解释 一 下 是 如 何 将 
这 些 主题 有 序 地 组 织 在 一 起 的 ， 以 便于 阅读 和 学 习 。 


概述 


第 1 章 是 非常 基础 的 一 章 ， 在 更 深入 地 学 习 之 前 建议 先 熟悉 一 下 这 
部 分 内 容 。 在 有 效 地 使 用 MySQL 之 前 应 当 理 解 它 是 如 何 组 织 的 。 本 章 
解释 了 MySQL 的 架构 及 其 存储 引擎 的 关键 设计 。 如 果 读 者 还 不 太 熟 悉 
关系 数据 库 和 事务 的 基础 知识 ， 本 章 也 可 以 带 来 一 点 帮助 。 如 果 之 前 
已 经 对 其 他 关系 数据 库 如 Oracle 比 较 熟 悉 ， 本 章 也 可 以 帮助 读者 了 解 
MySQL 的 入 门 知识 。 本 章 还 包括 了 一 点 MySQL 的 历史 背景 : MySQL 
随 着 时 间 的 演进 、 最 近 的 公司 所 有 权 更 替 ， 以 及 我 们 认为 比较 重要 的 
内 容 。 


打造 坚实 的 基础 


本 书 前 几 章 的 内 容 在 今后 使 用 MySQL 的 过 程 中 可 能 会 被 不 断 地 引 
用 到 ， 它 们 是 非常 基础 的 内 容 。 


第 2 章 讨论 了 基准 测试 的 基础 ， 例 如 服务 器 可 以 处 理 的 工作 负载 的 
类 型 、 处 理 特定 任务 的 速度 等 。 基 准 测试 是 一 项 至 关 重 要 的 技能 ， 可 


用 于 评估 服务 器 在 不 同 负载 下 的 表现 ， 但 也 要 明白 在 什么 情况 下 基准 
测试 不 能 发 挥 作 用 。 


第 3 章 介 绍 了 我 们 常用 于 故障 诊断 和 服务 器 性 能 问题 分 析 的 一 种 面 
向 响应 时 间 的 方法 。 该 方法 已 经 被 证 明 可 以 解决 我 们 曾 碰 到 过 的 一 些 
极为 未 手 的 问题 。 当 然 也 可 以 选择 修改 我 们 所 使 用 的 方法 (实际 上 我 
们 的 方法 也 是 从 Cary Millsap 的 方法 修改 而 来 的 ) ， 但 无 论 如 何 ， 至 少 
不 能 没有 方法 胡乱 猜测 。 


从 第 4 章 到 第 6 章 ， 连 续 介绍 了 三 个 关于 展 好 的 数据 库 逻 辑 设计 和 
物理 设计 基础 的 话题 。 第 4 章 涵盖 了 不 同 数据 类 型 的 细节 差别 以 及 表 设 
计 的 原则 。 第 5 章 则 展开 讨论 了 索引 ， 这 是 数据 库 的 物理 设计 。 对 于 索 
引 的 深入 理解 和 利用 是 高 效 使 用 MySQL 的 基础 ， 相 信 这 一 章 会 经 常 需 
要 回头 翻 看 。 而 第 6 章 则 包含 了 分 析 MySQL 的 查询 是 如 何 执行 的 ， 以 
及 如 何 利 用 查询 优化 器 的 话题 。 该 章 也 包含 了 大 量 常见 类 型 查询 的 例 
子 ， 演 示 了 MySQL 是 如 何 做 好 工作 的 ， 以 及 如 何 改写 查询 以 利用 
MySQL 的 特性 。 


到 此 为 止 ， 已 经 覆盖 了 关于 数据 库 的 基础 内 容 : 表 、 索 引 、 数 据 
和 查询 。 第 7 章 则 在 MySQL 基 础 知识 之 外 介绍 了 MySQL 的 高 级 特性 是 
如 何 工 作 的 。 这 章 的 内 容 包括 分 区 、 存 储 引 擎 、 触 发 器 ， 以 及 字符 
集 。MySQL 中 这 些 特性 的 实现 可 能 不 同 于 其 他 数据 库 ， 可 能 之 前 读者 
并 不 清楚 这 些 不 同 ， 因 此 理解 它们 对 于 性 能 可 能 会 带 来 新 的 收益 。 


配置 应 用 程序 


接 下 来 的 两 章 讲述 的 是 如 何 让 MySQL、 应 用 程序 及 硬件 一 起 很 好 
地 工作 。 第 8 章 介 绍 了 如 何 配 置 MySQL， 以 便 更 好 地 利用 硬件 ， 达 到 


更 好 的 可 靠 性 和 和 鲁 棒 性 。 第 9 章 解 释 了 如 何 让 操作 系统 和 硬件 工作 得 更 
好 。 另 外 也 深入 讨论 了 固态 硬盘 ， 为 高 可 扩展 性 应 用 发 挥 更 好 的 性 能 
提供 了 硬件 配置 的 建议 。 


上 面 两 章 都 一 定 程度 地 涉及 了 MySQL 的 内 部 知识 。 这 将 会 是 一 个 
反复 出 现 的 主题 ， 附 录 中 也 会 有 相关 内 容 可 以 学 习 到 MySQL 的 内 部 是 
如 何 实现 的 ， 理 解 了 这 些 知 识 将 帮助 读者 更 好 地 理解 某 些 现象 背后 的 
原理 。 


作为 基础 设施 组 件 的 MySQL 


MySQL 不 是 存在 于 真空 中 的 ， 而 是 应 用 整体 的 一 个 环节 ， 因 此 需 
要 考虑 整个 应 用 架构 的 鲁 棒 性 。 下 面 的 章节 将 告诉 我 们 该 如 何 做 到 这 
一 点 。 


第 10 章 讨论 了 MySQL 的 杀手 级 特性 : 能 够 设置 多 个 服务 器 从 一 台 
主 服务 器 同步 数据 。 不 六 的 是 ， 复 制 可 能 也 是 MySQL 给 很 多 用 户 囊 来 
困扰 的 一 个 特性 。 但 实际 上 不 应 该 发 生 这 样 的 情况 ， 本 章 将 告诉 你 如 
何 让 复制 运行 得 更 好 。 


第 11 章 讨论 了 什么 是 可 扩展 性 (这 和 性 能 不 是 一 回 事 ) ， 应 用 和 
系统 为 什么 会 无 法 扩展 ， 该 怎么 改善 扩展 性 。 如 果 能 够 正确 地 处 理 ， 
MySQL 的 可 扩展 性 是 足以 应 付 任何 需求 的 。 第 12 章 讲述 的 是 和 可 扩展 
性 相关 但 又 完全 不 同 的 主题 : 如 何 保障 MySQL 稳 定 而 正确 地 持续 运 
行 。 第 13 章 将 告诉 你 当 MySQL 在 云 计 算 环境 中 运行 时 会 有 什么 不 同 的 
事情 发 生 。 第 14 章 解释 了 什么 是 全 方位 的 优化 ( full-stack 
optimization) ， 就 是 从 前 端 到 后 端的 整体 优化 ， 从 用 户 体验 开始 直到 
效 据 库 。 


即使 是 世界 上 设计 最 好 、 最 具 可 扩展 性 的 染 构 ， 如 果 停电 会 导 宇 
彻底 骨 溃 ， 无 法 抵御 恶意 攻击 ， 解 决 不 了 应 用 的 bug 和 程序 员 的 错误 ， 
以 及 其 他 一 些 灾难 场景 ， 那 就 不 是 什么 好 的 架构 。 第 15 章 讨论 了 
MySQL 数 据 库 各 种 备份 与 恢复 的 场景 。 这 些 策略 可 以 帮助 读者 减少 在 
各 种 不 可 抗 的 硬件 失效 时 的 宕 机 时 间 ， 保 证 在 各 种 灾难 下 的 数据 最 终 
可 恢复 。 


其 他 有 用 的 主题 


在 本 书 的 最 后 一 章 以 及 附录 中 ， 我 们 探讨 了 一 些 无 法 明确 地 放 到 
前 面 章 节 的 内 容 ， 以 及 一 些 被 前 面 多 个 章节 引用 而 需要 特别 注意 的 主 


题 。 


第 16 章 探索 了 一 些 可 以 帮助 用 户 更 有 效 地 管理 和 监控 MySQL 服 务 
器 的 工具 ， 有 些 是 开源 的 ， 也 有 些 是 商业 的 。 


附录 人 A 介绍 了 近年 来 成 长 迅速 的 三 个 主要 的 非 MySQL 官 方 版 本 ， 
其 中 一 个 是 我 们 公司 在 维护 的 产品 。 知 道 还 有 其 他 什么 是 可 用 的 选择 
是 有 价值 的 ; 很 多 MySQL 难 以 解决 的 灰 手 问题 在 其 他 的 变种 版 本 中 说 
不 定 就 不 是 问题 了 。 这 三 个 版 本 中 的 两 个 (Percona Server 和 
MariaDB) 是 MySQL 的 完全 可 替换 版 本 ， 所 以 尝试 使 用 的 成 本 相对 来 
说 是 很 低 的 。 当 然 ， 在 这 里 我 们 也 需要 补充 一 点 ，Oracle 提 供 的 
MySQL 官 方 版 本 对 于 大 多 数 用 户 来 说 都 能 服务 得 很 好 。 


附录 B 演 示 了 如 何 检查 MySQL 服 务 器 。 知 道 如 何 从 服务 器 获取 状 
态 信息 是 非常 重要 的 ; 而 了 解 这 些 状 态 代 表 的 意义 则 更 加 重要 。 这 里 
将 覆盖 SHOW INNODB STATUS 的 输出 结果 ， 因 此 这 里 包含 了 InnoDB 


事务 存储 引擎 的 深入 信息 。 在 这 个 附录 中 讨论 了 很 多 InnoDB 的 内 部 信 
息 。 


附录 C 演 示 了 如 何 高 效 地 将 大 文件 从 一 个 地 方 复制 到 另外 一 个 地 
方 。 如 果 要 管理 大 量 的 数据 ， 这 种 操作 是 经 常 都 会 们 到 的 。 附 录 D 演 
示 了 如 何 真正 地 使 用 并 理解 EXPLAIN 命 令 。 附 录 E 演 示 了 如 何 破除 不 
同 查询 所 请 求 的 锁 互 相干 扰 的 问题 。 最 后 ， 附 录 F 介 绍 了 Sphinx， 一 个 
基于 MySQL 的 高 性 能 的 全 文 索引 系统 。 


软件 版 本 与 可 用 性 


MySQL 是 一 个 移动 靶 。 从 Jeremy 写 作 本 书 第 一 版 到 现在 ，MySQL 
已 经 发 布 了 好 几 个 版 本 。 当 本 书 第 一 版 的 初稿 交 给 出 版 社 的 时 候 ， 
MySQL 4.1 和 5.0 还 只 是 alpha 版 本 ， 而 如 今 MySQL 5.1 和 5.5 已 经 是 很 多 
在 线 应 用 的 主力 版 本 。 在 我 们 写 完 这 第 三 版 的 时 候 ，MySQL 5.6 也 即 
将 发 布 。 


本 书 的 内 容 并 不 依赖 某 一 个 具体 的 版 本 。 相 反 ， 我 们 会 利用 自己 
在 实际 环境 中 获得 的 更 广泛 的 知识 。 本 书 的 核心 内 容 主 要 关注 MySQL 
5.1 和 5.5 版 本 ， 因 为 我 们 认为 这 是 “当前 ”的 版 本 。 本 书 的 大 多 数 例子 都 
假设 运行 在 MySQL 5.1 的 某 个 成 熟 版 本 上 ， 比 如 MySQL 5.1.50 或 者 更 
高 的 版 本 。 对 于 在 旧版 本 中 可 能 不 存在 ， 或 者 只 在 即将 到 来 的 5.6 版 本 
中 出 现 的 特性 或 者 功能 ， 我 们 也 会 特别 标注 出 来 。 然 而 ， 关 于 某 个 
MySQL 版 本 的 特性 的 权威 指南 还 是 要 看 官方 文档 。 在 阅读 本 书 时 ， 建 
议 随 时 访问 在 线 官 方 文档 的 相关 内 容 (http://dev.mysql.com/doc/) o 


MySQL 的 另外 一 个 伟大 特点 是 能 够 运行 在 现今 流行 的 所 有 平台 : 
Mac OS X，Windows，GNU/Linux，Solaris，FreeBSD， 以 及 只 要 你 能 
举 出 名 字 的 其 他 平台 。 然 而 ， 本 书 主要 基于 GNU/Linux 由 和 其 他 类 
Unix 系 统 。Windows 的 用 户 可 能 会 碰 到 一 些 困难 。 比 如 说 文件 路 径 就 
和 Windows 完 全 不 一 样 。 我 们 也 会 引用 一 些 Unix 的 命令 行 工 具 ， 我 们 
假设 读者 能 够 知道 Windows 上 对 应 的 工具 是 什么 (2%)。 


在 Windows 上 搞 MySQL 的 另外 一 个 难点 是 Perl。MySQL 中 有 很 多 
有 用 的 工具 是 用 Perl 写 的 。 在 本 书 的 一 些 章节 中 ， 也 有 一 些 Perl 脚 本 ， 
在 此 基础 上 可 以 构建 更 加 复杂 的 工具 。Percona Toolkit 是 不 可 多 得 的 
MySQL 管 理工 具 ， 也 是 用 Penl 写 的 。 然 而 ，Windows 平 台 默 认 是 没 
Perl 环 境 的 。 为 了 使 用 这 些 工 具 ， 需 要 从 ActiveState 下 载 Perl 的 
Windows 版 本 ， 以 及 访问 MySQL 所 需要 的 一 些 额 外 的 模块 (DBI 和 
DBD::MySQL) 。 


本 书 使 用 的 约定 


下 面 是 本 书 中 使 用 的 一 些 约定 。 
斜体 (Italic) 


新 的 名 字 、URL、 邮 件 地 址 、 用 户 名 、 主 机 名 、 文 件 名 、 文 
件 扩展 名 、 路 径 名 、 目 录 ， 以 及 Unix 命 令 和 工具 都 使 用 和 斜体 表 
示 。 


等 宽 字 体 (Constant width) 


包括 代码 元 素 、 配 置 选 项 、 数 据 库 和 表 名 、 变 量 和 值 、 子 
数 、 模 块 、 文 件 内 容 、 命 令 输 出 等 ， 使 用 的 是 等 宽 字 体 。 


加 粗 的 等 宽 字 体 (Constant width bold) 


命令 或 者 其 他 需要 用 户 输入 的 文本 ， 命 令 输出 中 需要 强调 的 
某 些 内 容 ， 会 使 用 加 粗 的 等 宽 字体 。 


斜体 的 等 宽 字 体 (Constant width italic) 


需要 用 户 蔡 换 的 文本 以 斜体 的 等 宽 字 体 表 示 。 


al 这 个 图 标 表示 提示 、 建 议 ， 或 者 一 般 的 记录 。 


一 C3 这 个 图 标 表示 一 个 管 告 或 者 提醒 。 


使 用 示例 代码 


本 书 的 目标 是 为 了 帮助 读者 更 好 地 工作 。 一 般 来 说 ， 你 可 以 在 程 
序 或 者 文档 中 使 用 本 书 中 的 代码 。 只 要 不 是 大 规模 地 复制 重要 的 代 
码 ， 使 用 的 时 候 不 需要 联系 我 们 。 例 如 ， 你 编写 的 程序 中 如 果 只 是 使 
用 了 本 书 部 分 的 代码 片段 则 无 须 取得 授权 ， 而 出 售 或 者 分 发 O'Reilly 书 
籍 示 例 代码 的 CD-ROM 盘 片 则 需要 经 过 授权 。 引 用 本 书 的 代码 回答 问 
题 也 无 须 取得 授权 ， 而 大 量 引 用 本 书 的 示例 代码 到 产品 文档 中 则 需要 
获取 授权 。 


示例 代码 维护 在 htitp:/wwwhighperfmysql.com 站 点 中 ， 会 及 时 保持 
更 新 。 但 我 们 无 法 确保 代码 会 跟随 每 一 个 MySQL 的 小 版 本 进行 更 新 和 


测试 。 


我 们 欢迎 大 家 在 使 用 了 本 书 代码 后 进行 反馈 ， 但 这 不 是 一 个 强制 
要 求 。 有 反馈 时 请 提供 标题 、 作 者 、 出 版 公司 和 ISBN。 例 如 : “High 
Performance MySQL , Third Edition , by Baron Schwartz et al. 

(O'Reilly) . Copyright 2012 Baron Schwartz, Peter Zaitsev, and Vadim 
Tkachenko, 978-1-449-31428-6”. 


如 果 你 使 用 了 本 书 的 代码 ， 但 又 不 在 上 面 描述 的 一 些 无 须 授权 的 
范围 之 内 ， 不 确定 是 否 需 要 获取 授权 时 ， 请 联系 


permissions@oreilly.como 


Safari 在 线 书店 


Sa fa ri? Safari 在 线 书 店 (www.safaribooksonline.com) 是 一 家 提供 定制 服务 的 


数字 图 书馆 ， 提 供 技术 和 商务 领域 内 顶级 作家 的 高 质量 内 容 的 书籍 和 音像 制品 。 很 多 技术 专 
家 、 软 件 开 发 者 、Web 设 计 师 、 商 务 人 士 和 创新 专家 都 将 Safari 在 线 书店 作为 他 们 研究 、 解 决 
问题 、 学 习 和 认证 练习 的 首选 资料 来 源 。 


Safari 在 线 书店 为 组 织 、 政 府 机 构 和 个 人 提供 了 一 系列 的 产品 组 合 
和 定价 计划 。 订 阅 者 可 以 访问 数 以 千 计 的 图 书 、 培 训 视 频 和 手稿 ， 这 
些 存 在 于 一 个 可 搜索 的 数据 库 中 ， 涵 盖 的 出 版 公司 有 O'Reilly Media, 
Prentice Hall Professional ， Addison-Wesley Professional ， Microsoft 
Press, Sams, Que, Peachpit Press, Focal Press, Cisco Press, John 
Wiley&Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, 
Adobe Press, FT Press, Apress, Manning, New Riders, McGraw- 


Hill, Jones&Bartlett, Course Technology， 等 等 。 如 需 了 解 更 多 关于 
Safari 在 线 书店 的 情况 ， 请 访问 在 线 网 站 。 


如 何 联系 我 们 


若 有 关于 本 书 的 任何 评论 或 者 问题 ， 请 和 出 版 公司 联系 。 
美国 : 

O'Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 
中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 
(100035) 


奥 羔 利 技术 咨询 (北京 ) 有 限 公司 


本 书 有 一 个 配套 的 网 页 ， 上 面 列 出 了 勘误 表 、 示 例 代 码 及 其 他 相 
天 信息 。 下 面 是 此 网 页 的 地 址 : 


http://shop.oreilly.com/product/0636920022343.do 
如 果 有 关于 本 书 的 评论 和 技术 问题 ， 也 可 以 通过 邮件 进行 沟通 : 


bookquestions@oreilly.com 


如 果 想 了 解 更 多 关于 我 们 出 版 公司 的 书籍 、 会 议 、 资 源 中 心 和 
O'Reilly 网 络 的 信息 ， 请 访问 网 站 : 


http://www.oreilly.com 
我 们 的 Facebook: http://facebook.com/oreilly 
我 们 的 Twitter: http://twitter.com/oreillymedia 
我 们 的 YouTube: http:/www.youtube.com/oreillymedia 


当然 ， 读 者 也 可 以 直接 和 作者 取得 联系 ， 可 以 访问 作者 的 公司 网 
站 http://www.percona.com。 我 们 将 乐于 收 到 大 家 的 反馈 。 


本 书 第 三 版 的 致谢 


感谢 以 下 人 员 给 予 的 各 种 帮助 : Brian Aker, Johan Andersson , 
Espen Braekken ， Mark Callaghan, James Day, Maciej Dobrzanski , 
Ewen Fortune , Dave Hildebrandt , Fernando Ipar , Haidong Ji , 
Giuseppe Maxia, Aurimas Mikalauskas, Istvan Podor, Yves Trudeau, 
Matt Yonkovit, Alex Yurchenko。 感 谢 Percona 公 司 的 所 有 员工 ， 多 年 
来 为 本 书 提供 了 无 数 的 支持 。 感 谢 很 多 著名 博 主 G 和 技术 大 会 的 演讲 
者 ， 他 们 为 本 书 的 很 多 思想 提供 了 大 量 的 素材 ， 尤 其 是 Yoshinori 
Matsunobu o 另外 也 要 感谢 本 书 前 面 两 版 的 作者 : Jeremy D. 
Zawodny、 Derek J. Balling 和 Arjen Lentz. 感谢 Andy Oram, Rachel 
Head， 以 及 O'Reilly 的 整个 编辑 团队 ， 你 们 为 本 书 的 出 版 和 发 行 做 了 卓 
有 成 效 的 工作 。 非 党 感谢 Oracle 的 才华 横 洪 且 专注 的 MySQL 团 队 ， 以 


及 所 有 之 前 的 MySQL 开 发 者 ， 不 管 你 现在 是 在 SkySQL 还 是 在 Monty 团 
队 。 


Baron 也 要 感谢 他 的 妻子 Lynn、 他 的 母亲 Connie， 以 及 他 的 天 父母 
Jane 和 Roger， 感 谢 他 们 一 如 既往 地 支持 他 的 工作 ， 尤 其 是 不 断 地 鼓励 
他 ， 并 且 承 担 了 所 有 的 家 务 和 照顾 整个 家 庭 的 重任 。 也 要 感谢 Peter 和 
Vvadim ， 你 们 是 如 此 优秀 的 老师 和 同事 。Baron 将 此 版 本 献 给 Alan 
Rimm-Kaufman， 以 纪念 他 给 予 的 伟大 的 爱 和 鼓励 ， 这 些 都 将 永志 不 


T 
/NO 


本 书 第 二 版 的 致谢 


Sphinx 的 开发 者 Andrew Aksyonoff 编 写 了 附录 F。 我 们 非常 感谢 他 
首次 对 此 进行 深入 的 讨论 。 


在 编写 本 书 的 时 候 ， 我 们 得 到 了 很 多 人 的 无 私 帮助 。 在 此 无 法 一 
一 列举 一 -一 我 们 真 的 非常 感谢 MySQL 社 区 和 MySQL AB 公司 的 每 一 个 
人 。 下 面 是 对 本 书 做 出 了 直接 贡献 的 人 ， 如 有 遗漏 ， 还 请 见谅 。 他 们 
是 : Tobias Asplund, Igor Babaev, Pascal Borghino, Roland Bouman, 
Ronald Bradford, Mark Callaghan, Jeremy Cole, Britt Crawford 和 他 的 
HiveDB ™ H , Vasil Dimov, Harrison Fisk, Florian Haas, Dmitri 
Joukovski 和 他 的 Zmanda 项 目 〈 同 时 感谢 Dmitri 为 解释 LVM 快 照 提 供 的 
配 图 ) , Alan Kasindorf, Sheeri Kritzer Cabral, Marko Makela ， 
Giuseppe Maxia, Paul McCullagh, B. Keith Murphy, Dhiren Patel ， 
Sergey Petrunia, Alexander Rubin, Paul Tuckfield, Heikki Tuuri, LA Xe 
Michael“Monty”Widenius。 在 这 里 还 要 特别 感谢 O'Reilly 的 编辑 Andy 


Oram 和 助理 编辑 Isabel Kunkle， 以 及 审 稿 人 Rachel Wheeler， 同 时 也 要 
感谢 O'Reilly 团 队 的 其 他 所 有 成 员 。 


来 自 Baron 


我 要 感谢 我 的 妻子 Lynn Rainville 和 小 狗 Carbon。 如 果 你 也 曾 写 过 
一 本 书 ， 我 相信 你 就 能 体会 到 我 是 如 何 地 感谢 他 们 。 我 也 非常 感谢 
Alan Rimm-Kaufman 和 我 在 Rimm-Kaufman 集 团 的 同事 ， 在 写 书 的 过 程 
中 ， 他 们 给 了 我 支持 和 鼓励 。 谢 谢 Peter、Vadim 和 Arjen， 是 你 们 给 了 
我 梦想 成 真 的 机 会 。 最 后 ， 我 要 感谢 Jeremy 和 Derek 为 我 们 开 了 个 好 
头 。 


来 自 Peter 


我 从 事 MySQL 性 能 和 可 扩展 性 方面 的 演讲 、 培 训 和 咨询 工作 已 经 
很 多 年 了 ， 我 一 直 想 把 它们 扩展 到 更 多 的 受众 。 因 此 ， 当 Andy Oram 
加 入 到 本 书 的 编写 当中 时 ， 我 感到 非常 兴 备 。 此 前 我 没有 写 过 书 ， 所 
以 我 对 所 需要 的 时 间 和 精力 都 之 无 把 握 。 一 开始 我 们 谈 到 只 对 第 一 版 
做 一 些 更 新 ， 以 跟 上 MySQL 最 新 的 版 本 升级 ， 但 我 们 想 把 更 多 新 素材 
加 入 到 书 中 ， 结 果 几 乎 相当 于 重 写 了 整 本 书 。 


这 本 书 是 真正 的 团队 合作 的 结晶 。 因 为 我 忙于 Percona 公 司 的 事情 
一 一 这 是 我 和 Vadim 的 咨询 公司 ， 而 且 英 语 并 非 我 的 第 一 语言 ， 所 以 
我 们 有 着 不 同 的 角色 分 工 。 我 负责 提供 大 纲 和 技术 性 内 容 ， 评 审 所 有 
的 材料 ， 在 写作 的 时 候 再 进行 修订 和 扩展 。 当 Arjen (MySQL 文 档 团 
队 的 前 负责 人 ) 加 入 之 后 ， 我 们 就 开始 勾画 出 整个 提纲 。 在 Baron 加 入 


后 ， 一 切 才 开始 真正 行动 起 来 ， 他 能 够 以 不 可 思议 的 速度 编写 出 高 质 
量 的 内 容 。Vadim 则 在 深入 检查 MySQL 源 代码 和 提供 基准 测试 及 其 他 
研究 来 巩固 我 们 的 论点 时 提供 了 巨大 的 帮助 。 


当 我 们 编写 本 书 时 ， 我 们 发 现 有 越 来 越 多 的 领域 需要 刨 根 问 底 。 
本 书 的 大 部 分 主题 ， 如 复制 、 查 询 优 化 、InnoDB、 架 构 和 设计 都 足以 
单独 成 书 。 因 此 ， 有 时 候 我 们 不 得 不 在 某 个 点 停止 深入 ， 把 余下 的 材 
料 用 在 将 来 可 能 出 版 的 新 版 本 中 ， 或 者 我 们 的 博客 、 演 讲 和 技术 文章 
中 。 


本 书 的 评审 者 给 了 我 们 非常 大 的 帮助 ， 无 论 是 来 自 MySQL AB 公 
司 内 部 的 人 员 ， 还 是 外 部 的 人 员 ， 他 们 都 是 MySQL 领 域 最 优秀 的 世界 
级 专家 。 其 中 包括 MySQL 的 创建 者 Michael Widenius、InnoDB 的 创建 
者 Heikki Tuuri、MySQL 优 化 器 团队 的 负责 人 Igor Babaev， 以 及 其 他 
Tes 


我 还 要 感谢 我 的 妻子 Katya Zaytseva， 我 的 孩子 Ivan 和 Nadezhda， 
他 们 人 允许 我 把 家 庭 时 间 花 在 了 本 书 的 写作 上 。 我 也 要 感谢 Percona 的 员 
工 ， 当 我 在 公司 里 “人 间 鞭 发 ”去 写 书 时 ， 他 们 承担 了 日 弟 事 务 的 处 理 
工作 。 当 然 ， 我 也 要 感谢 O'Reilly 和 Andy Oram 让 这 一 切 成 为 可 能 。 


来 自 Vadim 


我 要 感谢 Peter， 能 够 在 本 书 中 和 他 合作 ， 我 感到 十 分 开心 ， 期 望 
在 其 他 项 目 中 能 继续 共事 。 我 也 要 感谢 Baron， 他 在 本 书 的 写作 过 程 中 
起 了 很 大 的 作用 。 还 有 Arjen， 跟 他 一 起 工作 非 党 好玩。 我 还 要 感谢 我 
们 的 编辑 Andy Oram， 他 抱 着 十 二 万 分 的 耐心 和 我 们 一 起 工作 。 此 


外 ， 还 要 感谢 MySQL 团 队 ， 是 他 们 创造 了 这 个 伟大 的 软件 。 我 还 要 感 
谢 我 们 的 客户 给 予 我 调 优 MySQL 的 机 会 。 最 后 ， 我 要 特别 感谢 我 的 妻 
子 Valerie， 以 及 我 们 的 孩子 Myroslav 和 Timur， 他 们 一 直 支 持 我 ， 帮 助 
我 一 步 步 前 进 。 


来 自 Arjen 


我 要 感谢 Andy 的 容 智 、 指 导 和 和 耐心， 感谢 Baron 中 途 加 入 到 我 们 
当中 来 、 感 谢 Peter 和 Vadim 坚 实 的 背景 信息 和 基准 测试 。 也 要 感谢 
Jeremy 和 Derek 在 第 一 版 中 打下 的 基础 。 在 我 的 书 上 ，Derak 题 写 着 : 
“要 诚实 一 一 这 就 是 我 的 所 有 要 求 ”。 


我 也 要 感谢 我 在 MySQL AB 公 司 时 的 所 有 同事 ， 在 那里 我 获得 了 
关于 本 书 主题 的 大 多 数 知识 。 在 此 ， 我 还 要 特别 提 到 Monty， 我 一 直 
认为 他 是 令 人 自豪 的 MySQL 之 父 ， 尽 管 他 的 公司 如 今 已 经 成 为 Sun 公 
司 的 一 部 分 。 我 要 感谢 全 球 MySQL 社 区 里 的 每 一 个 人 。 


最 后 同样 重要 的 是 ， 我 要 感谢 我 的 女儿 Phoebe， 在 她 尚 年 少 的 生 
活 舞台 上 ， 不 用 关心 什么 是 MySQL ， 也 不 用 考虑 Wiggles 指 的 是 什么 
东西 。 从 某 些 方面 来 讲 ， 无 知 就 是 福 。 它 能 给 予 我 们 一 个 全 新 的 视角 
来 看 清 生 命中 真正 重要 的 是 什么 。 对 于 读者 ， 祝 愿 你 们 的 书架 上 又 增 
AIT- HAAB, WA, FBIM. 


本 书 第 一 版 的 致谢 


要 完成 这 样 一 本 书 的 写作 ， 离 不 开 许 许多 多 人 的 帮助 。 没 有 他 们 
的 无 私 援助 ， 你 手 上 的 这 本 书 就 可 能 仍然 是 我 们 显示 器 屏幕 四 周 的 那 


一 扒 贴 纸 。 这 是 本 书 的 一 部 分 ， 在 这 里 ， 我 们 可 以 感谢 每 一 个 曾经 帮 
助 我 们 脱离 困境 的 人 ， 而 无 须 担心 突然 奏 响 的 背景 音乐 催促 我 们 闭 上 
嘴巴 赶紧 走 挥 一 一 如 同 你 在 电视 里 看 到 的 颁奖 晚会 那样 。 


如 果 没 有 编辑 Andy Oram 坚 决 的 督促 、 请 求 、 央 求 和 支持 ， 我 们 
就 无 法 完成 本 书 。 如 果 要 找 对 于 本 书 最 负责 的 一 个 人 ， 那 就 是 Andy。 
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然而 ，Andy 不 是 一 个 人 在 战斗 。 在 OReily， 还 有 一 批 人 都 参与 
了 将 那些 小 贴纸 变 成 你 正在 看 的 这 本 书 的 工作 。 所 以 我 们 也 要 感谢 那 
些 在 生产 、 插 画 和 销售 环节 的 人 们 ， 感 谢 你 们 把 这 本 书 变 成 实体 。 当 
然 ， 也 要 感谢 Tim O'Reilly， 是 他 持久 不 变 地 承诺 为 广大 开源 软件 出 版 
一 批 业 内 最 好 的 图 书 。 


最 后 ， 我 们 要 把 感谢 给 予 那些 同意 审阅 本 书 不 同 版 本 草稿 ， 并 告 
诉 我 们 哪里 有 错误 的 人 们 : 我 们 的 评审 者 。 他 们 把 2003 年 假期 的 一 部 
分 时 间 用 在 了 审阅 这 些 格式 粗糙 ， 充 满 了 打字 符号 、 误 导 性 的 语句 和 
彻底 的 数学 错误 的 文本 上 。 我 们 要 感谢 (排名 不 分 先后 ) : 
Brian“Krow”Aker, Mark“JDBC”Matthews ， Jeremy“the other Jeremy” 
Cole ， Mike“VBMySQL.com ( http://vbmysql.com ) ”Hillyer , 
Raymond“Rainman”’De Roo , Jeffrey“Regex Master”Friedl ， Jason 
DeHaan , Dan Nelson , Steve“Unix Wiz”Friedl ， Kasia“Unix Girl” 
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我 要 在 此 感谢 Andy， 是 他 同意 接纳 这 个 项 目 ， 并 持续 不 断 地 鞭策 
我 们 加 入 新 的 章节 内 容 。Derek 的 帮助 也 非常 天 键 ， 本 书 最 后 的 20% 人 ~ 
30% 内 容 由 他 一 手 完成 ， 这 使 得 我 们 没有 错过 下 一 个 目标 日 期 。 感 谢 
他 同意 中 途 加 入 进来 ， 代 替 我 只 能 偶尔 爆发 一 下 的 零星 生产 力 ， 完 成 
了 关于 XML 的 烦琐 工作 、 第 10 章 、 附 录 F， 以 及 我 丢 给 他 的 那些 活 
JLo 


我 也 要 感谢 我 的 父母 ， 在 多 年 以 前 他 们 就 给 我 买 了 Commodore 64 
电脑 ， 他 们 不 仅 在 前 10 年 里 容忍 了 我 就 像 要 以 身 相 许 般 的 对 电子 和 计 
算 机 技术 的 痴迷 ， 并 在 之 后 还 成 为 我 不 懈 学 习 和 探索 的 支持 者 。 


接 下 来 ， 我 要 感谢 在 过 去 几 年 里 在 Yahoo! 布道 推广 MySQL 时 遇 
到 的 那 一 群 人 。 跟 他 们 共事 ， 我 感到 非常 愉快 。 在 本 书 的 筹备 阶段 ， 
Jeffrey Friedl 和 Ray Goldberger 给 了 我 鼓励 和 反馈 意见 。 在 他 们 之 后 还 
有 Steve Morris, James Harvey 和 Sergey Kolychev 8 % T FÈ TE Yahoo! 
Finance MySQL 服 务 器 上 做 着 看 似 固 定 不 变 的 实验 ， 即 使 这 打扰 了 他 
们 的 重要 工作 。 我 也 要 感谢 Yahoo! 的 其 他 成 员 ， 是 他 们 帮 有 我 发 现 了 
MySQL 上 的 那些 有 趣 的 问题 和 解决 方法 。 还 有 ， 最 重要 的 是 要 感谢 他 
们 对 我 有 足够 的 信任 和 信念 ， 让 我 把 MySQL 用 在 Yahoo! 重 要 和 可 见 的 
部 分 业务 上 。 


Adam Goodman， 一 位 出 版 家 和 Linux Magazine 的 拥有 者 ， 他 帮助 
我 轻装 上 阵 为 技术 受众 撰写 文章 ， 并 在 2001 年 下 半年 第 一 次 出 版 了 我 
的 MySQL 相 关 的 长 篇 文章 。 自 那 以 后 ， 他 教授 给 我 更 多 他 所 能 认识 到 
的 关于 编辑 和 出 版 的 技能 ， 还 鼓励 我 通过 在 杂志 上 开设 月 度 专栏 在 这 
条 路 上 继续 走 下 去 。 谢 谢 你 ，Adam。 


我 要 感谢 Monty 和 David， 感 谢 你 们 与 这 个 世界 分 享 了 MySQL。 说 
到 MySQL AB， 也 要 感谢 在 那里 的 其 他 “ 牛 ”* 人 ， 是 他 们 鼓励 我 瑟 成 本 
书 : Kerry, Larry, Joe, Marten, Brian, Paul, Jeremy, Mark, 
Harrison，Matt， 以 及 团队 中 的 其 他 人 。 他 们 真 的 非常 棒 。 


最 后 ， 我 要 感谢 我 博客 的 读者 ， 是 他 们 鼓励 我 撰写 基于 日 常 工作 
的 非 正 式 的 MySQL 及 其 他 技术 文章 。 最 后 同样 重要 的 是 ， 感 谢 Goon 
Squado 


来 自 Derek 


就 像 Jeremy 一 样 ， 有 太 多 同样 的 原因 ， 我 也 要 感谢 我 的 家 庭 。 我 
要 感谢 我 的 父母 ， 是 他 们 不 停 地 鼓励 我 去 写 一 本 书 ， 哪 怕 他 们 头脑 中 
都 没有 任何 和 它 相 关 的 东西 。 我 的 祖父 母 给 我 上 了 两 堂 很 有 价值 的 
课 : 美元 的 含义 ， 以 及 我 跟 电脑 相爱 有 多 深 ， 他 们 还 借 钱 给 我 去 购买 
了 我 平生 第 一 台电 脑 : Commodore VIC-20。 


我 万 分 感谢 Jeremy 邀 请 我 加 入 他 那 旋 风 般 的 写作 * 过 山 车 ”中 来 。 
这 是 一 个 很 棒 的 体验 ， 我 希望 将 来 还 能 跟 他 一 起 工作 。 


我 要 特别 感谢 Raymond De Roo, Brian Wohlgemuth ， David 
Calafrancesco, Tera Doty, Jay Rubin, Bill Catlan, Anthony Howe, 
Mark O'Neal, George Montgomery, George Barber， 以 及 其 他 无 数 耐 心 
听 我 抱怨 的 人 ， 我 从 他 们 那里 了 解 到 我 所 讲述 的 内 容 是 否 能 让 门外汉 
也 能 理解 ， 或 者 仅仅 得 到 一 个 我 所 希望 的 笑脸 。 没 有 他 们 ， 这 本 书 可 
能 也 能 写 出 来 ， 但 我 几乎 可 以 肯定 我 会 在 这 个 过 程 中 疯 掉 。 


(1) 为 了 避免 产生 疑惑 ， 如 果 我 们 指 的 是 内 核 的 时 候 用 的 是 Linux， 如 果 指 的 是 支持 应 用 
的 整个 操作 系统 环境 的 时 候 用 的 是 GNU/Linuxo 


(2) 可 以 从 http:/Nunxutils.sourceforge.net 或 者 http://gnuwin32.sourceforge.net 获 得 Unix 工 具 的 
Windows 兼 容 版 本 。 


(3) 在 http:/planet.mysql.com 网 站 上 可 以 找到 很 多 优秀 的 技术 博客 。 


第 1 章 ”MySQL 架构 与 历史 


和 其 他 数据 库 系统 相 比 ，MySQL 有 点 与 众 不 同 ， 它 的 架构 可 以 在 
多 种 不 同 场景 中 应 用 并 发 挥 好 的 作用 ， 但 同时 也 会 带 来 一 点 选择 上 的 
困难 。MySQL 并 不 完美 ， 却 足够 灵活 ， 能 够 适应 高 要 求 的 环境 ， 例 如 
Web 类 应 用 。 同 时 ，MySQL 既 可 以 人 欢 入 到 应 用 程序 中 ， 也 可 以 支持 数 
据 仓库 、 内 容 索 引 和 部 署 软件 、 高 可 用 的 宛 余 系统 、 在 线 事务 处 理 系 
统 (OLTP) 等 各 种 应 用 类 型 。 


为 了 充分 发 挥 MySQL 的 性 能 并 顺利 地 使 用 ， 融 必须 理解 其 设计 。 
MySQL 的 灵活 性 体现 在 很 多 方面 。 例 如 ， 你 可 以 通过 配置 使 它 在 不 同 
的 硬件 上 都 运行 得 很 好 ， 也 可 以 支持 多 种 不 同 的 数据 类 型 。 但 是 ， 
MySQL 最 重要 、 最 与 众 不 同 的 特性 是 它 的 存储 引擎 架构 ， 这 种 架构 的 
设计 将 查询 处 理 (Query Processing) 及 其 他 系统 任务 (Server Task) 
和 数据 的 存储 /提取 相 分 离 。 这 种 处 理 和 存储 分 离 的 设计 可 以 在 使 用 时 
根据 性 能 、 特 性 ， 以 及 其 他 需求 来 选择 数据 存储 的 方式 。 


本 章 概 要 地 描述 了 MySQL 的 服务 器 染 构 、 各 种 存储 引擎 之 间 的 主 
要 区 别 ， 以 及 这 些 区 别 的 重要 性 。 另 外 也 会 回顾 一 下 MySQL 的 历史 背 
景 和 基准 测试 ， 并 试图 通过 简化 细节 和 演示 案例 来 讨论 MySQL 的 原 
理 。 这 些 讨 论 无 论 是 对 数据 库 一 无 所 知 的 新 手 ， 还 是 熟知 其 他 数据 库 
的 专家 ， 都 不 无 神 益 。 


1.1 MySQL 逻辑 架构 


如 果 能 在 头脑 中 构建 出 一 幅 MySQL 各 组 件 之 间 如 何 协同 工作 的 架 
构图 ， 就 会 有 助 于 深入 理解 MySQL 服 务 器 。 图 1-1 展 示 了 MYySQL 的 逻 
辑 架 构图 。 


SAS 


Y Ff fF 


14 


T 时 
查询 
He 
市 


OAE 


存 铺 引 擎 


图 1-1: MySQL 服 务 器 逻辑 架构 图 


最 上 层 的 服务 并 不 是 MySQL 所 独 有 的 ， 大 多 数 基于 网 络 的 客户 
端 /服务 器 的 工具 或 者 服务 都 有 类 似 的 架构 。 比 如 连接 处 理 、 授 权 认 
证 、 安 全 等 等 。 


第 二 层 架 构 是 MySQL 比 较 有 意思 的 部 分 。 大 多 数 MySQL 的 核心 
服务 功能 都 在 这 一 层 ， 包 括 查询 解析 、 分 析 、 优 化 、 缓 存 以 及 所 有 的 
AAK 〈 例 如 ， 日 期 、 时 间 、 数 学 和 加 密 函 数 ) ， 所 有 跨 存储 引擎 
的 功能 都 在 这 一 层 实现 : 存储 过 程 、 触 发 器 、 视 图 等 。 


第 三 层 包 含 了 存储 引擎 。 存 储 引 擎 负责 MySQL 中 数据 的 存储 和 提 
取 。 和 GNU/Linux 下 的 各 种 文件 系统 一 样 ， 每 个 存储 引擎 都 有 它 的 优 
势 和 劣势 。 服 务 器 通过 API 与 存储 引擎 进行 通信 。 这 些 接口 屏 贡 了 不 
同 存储 引擎 之 间 的 差异 ， 使 得 这 些 差异 对 上 层 的 查询 过 程 透 明 。 存 储 
引擎 API 包 含 几 十 个 底层 函数 ， 用 于 执行 诸如 “开始 一 个 事务 ?或 者 “ 根 


据 主键 提取 一 行 记录 ”等 操作 。 但 存储 引擎 不 会 去 解析 SQL(W， 不同 存 
储 引 擎 之 间 也 不 会 相互 通信 ， 而 只 是 简单 地 响应 上 层 服务 器 的 请 求 。 


1.1.1 ”连接 管理 与 安全 性 


每 个 客户 端 连 接 都 会 在 服务 器 进程 中 拥有 一 个 线程 ， 这 个 连接 的 
查询 只 会 在 这 个 单独 的 线程 中 执行 ， 该 线程 只 能 轮流 在 某 个 CPU 核 心 
或 者 CPU 中 运行 。 服 务 器 会 负责 缓存 线程 ， 因 此 不 需要 为 每 一 个 新 建 
的 连接 创建 或 者 销毁 线程 名 。 


当 客 户 端 (应用) 连接 到 MySQL 服 务 器 时 ， 服 务 器 需要 对 其 进行 
认证 。 认 证 基于 用 户 名 、 原 始 主机 信息 和 密码 。 如 果 使 用 了 安全 套 接 
F (SSL) 的 方式 连接 ， 还 可 以 使 用 X.509 证 书 认 证 。 一 旦 客户 端 连 接 
成 功 ， 服 务 器 会 继续 验证 该 客户 端 是 否 具有 执行 某 个 特定 查询 的 权限 

(例如 ， 是 否 允 许 客 户 端 对 world 数 据 库 的 Country 表 执行 SELECT 语 
句 ) o 


1.1.2 ”优化 与 执行 


MySQL 会 解析 查询 ， 并 创建 内 部 数据 结构 (解析 树 ) ， 然 后 对 其 
进行 各 种 优化 ， 包 括 重 写 查 询 、 决 定 表 的 读 取 顺 序 ， 以 及 选择 合适 的 
索引 等 。 用 户 可 以 通过 特殊 的 关键 字 提 示 (hint) 优化 器 ， 影 响 它 的 
决策 过 程 。 也 可 以 请 求 优化 器 解释 (explain) 优化 过 程 的 各 个 因素 ， 
使 用 户 可 以 知道 服务 器 是 如 何 进行 优化 决策 的 ， 并 提供 一 个 参考 基 
准 ， 便 于 用 户 重 构 查询 和 schema、 修 改 相关 配置 ， 使 应 用 尽 可 能 高 交 
运行 。 第 6 章 我 们 将 讨论 更 多 优化 器 的 细节 。 


优化 器 并 不 关心 表 使 用 的 是 什么 存储 引擎 ， 但 存储 引擎 对 于 优化 
查询 是 有 影响 的 。 优 化 器 会 请 求 存 储 引 擎 提供 容量 或 某 个 具体 操作 的 
开销 信息 ， 以 及 表 数 据 的 统计 信息 等 。 例 如 ， 某 些 存储 引擎 的 某 种 索 
引 ， 可 能 对 一 些 特定 的 查询 有 优化 。 关 于 索引 与 Schema 的 优化 ， 请 参 
见 第 4 章 和 第 5 章 。 


对 于 SELECT 语句 ， 在 解析 查询 之 前 ， 服 务 器 会 先 检 查 查 询 缓存 
(Query Cache) ， 如 果 能 够 在 其 中 找到 对 应 的 查询 ， 服 务 器 就 不 必 再 
执行 查询 解析 、 优 化 和 执行 的 整个 过 程 ， 而 是 直接 返回 查询 缓存 中 的 
结果 集 。 第 7 章 详细 讨论 了 相关 内 容 。 


1.2 ”并 发 控制 


无 论 何 时 ， 只 要 有 多 个 查询 需要 在 同一 时 刻 修改 数据 ， 都 会 产生 
并 发 控制 的 问题 。 本 章 的 目的 是 讨论 MySQL 在 两 个 层面 的 并 发 控制 : 
服务 器 层 与 存储 引擎 层 。 并 发 控制 是 一 个 内 容 庞大 的 话题 ， 有 大 量 的 
理论 文献 对 其 进行 过 详细 的 论述 。 本 章 只 简要 地 讨论 MySQL 如 何 控制 
并 发 读 写 ， 因 此 读者 需要 有 相关 的 知识 来 理解 本 章 接 下 来 的 内 容 。 


以 Unix 系 统 的 email box 为 例 ， 典 型 的 mbox 文 件 格式 是 非 单 简单 
的 。 一 个 mbox 邮 箱 中 的 所 有 邮件 都 串 行 在 一 起 ， 彼 此 首尾 相连 。 这 种 
格式 对 于 读 取 和 分 析 邮 件 信息 非常 友好 ， 同 时 投递 邮件 也 很 容易 ， 只 
要 在 文件 末尾 附加 新 的 邮件 内 容 即 可 。 


但 如 果 两 个 进程 在 同一 时 刻 对 同一 个 邮箱 投递 邮件 ， 会 发 生 什么 
情况 ? 显然， 邮箱 的 数据 会 被 破坏 ， 两 封 邮 件 的 内 容 会 交叉 地 附加 在 
邮箱 文件 的 末尾 。 设 计 良 好 的 邮箱 投递 系统 会 通过 锁 (lock) 来 防止 


数据 损坏 。 如 果 客户 试图 投递 邮件 ， 而 邮箱 已 经 被 其 他 客户 锁 住 ， 那 
就 必须 等 待 ， 直 到 锁 释 放 才 能 进行 投递 。 


这 种 锁 的 方案 在 实际 应 用 环境 中 虽然 工作 良好 ， 但 并 不 支持 并 发 
处 理 。 因 为 在 任意 一 个 时 刻 ， 只 有 一 个 进程 可 以 修改 邮箱 的 数据 ， 这 
在 大 容量 的 邮箱 系统 中 是 个 问题 。 


1.2.1 读 写 锁 


从 邮箱 中 读 取 数 据 没 有 这 样 的 麻烦 ， 即 使 同一 时 刻 多 个 用 户 并 发 
读 取 也 不 会 有 什么 问题 。 因 为 读 取 不 会 修改 数据 ， 所 以 不 会 出 错 。 但 
如 果 某 个 客户 正在 读 取 邮箱 ， 同 时 另外 一 个 用 户 试 图 删除 编号 为 25 的 
邮件 ， 会 产生 什么 结果 ? 结论 是 不 确定 ， 读 的 客户 可 能 会 报错 退出 ， 
也 可 能 读 取 到 不 一 致 的 邮箱 数据 。 所 以 ， 为 安全 起 见 ， 即 使 是 读 取 邮 
箱 也 需要 特别 注意 。 


如 果 把 上 述 的 邮箱 当成 数据 库 中 的 一 张 表 ， 把 邮件 当成 表 中 的 一 
行 记录 ， 就 很 容易 看 出 ， 同 样 的 问题 依然 存在 。 从 很 多 方面 来 说 ， 邮 
箱 就 是 一 张 简单 的 数据 库 表 。 修 改 数据 库 表 中 的 记录 ， 和 删除 或 者 修 
改 邮箱 中 的 邮件 信息 ， 十 分 类 似 。 


解决 这 类 经 典 问 题 的 方法 就 是 并 发 控制 ， 其 实 非 常 简单 。 在 处 理 
并 发 读 或 者 写 时 ， 可 以 通过 实现 一 个 由 两 种 类 型 的 锁 组 成 的 锁 系 统 来 
解决 问题 。 这 两 种 类 型 的 锁 通常 被 称 为 共享 锁 (shared lock) 和 排他 
锁 (exclusive lock) ， 也 叫 读 锁 (read lock) #05 Ht (write lock) o 


这 里 先 不 讨论 锁 的 具体 实现 ， 描 述 一 下 锁 的 概念 如 下 : 读 锁 是 共 
享 的 ， 或 者 说 是 相互 不 阻塞 的 。 多 个 客户 在 同一 时 刻 可 以 同时 读 取 同 
一 个 资源 ， 而 互 不 干扰 。 写 锁 则 是 排他 的 ， 也 就 是 说 一 个 写 锁 会 阻塞 
其 他 的 写 锁 和 读 锁 ， 这 是 出 于 安全 策略 的 考虑 ， 只 有 这 样 ， 才 能 确保 
在 给 定 的 时 间 里 ， 只 有 一 个 用 户 能 执行 写 入 ， 并 防止 其 他 用 户 读 取 正 
在 写 入 的 同一 资产 。 


在 实际 的 数据 库 系统 中 ， 每 时 每 刻 都 在 发 生 锁 定 ， 当 某 个 用 户 在 
修改 某 一 部 分 数据 时 ，MySQL 会 通过 锁定 防止 其 他 用 户 读 取 同 一 数 
据 。 大 多 数 时 候 ，MySQL 锁 的 内 部 管理 都 是 透明 的 。 


1.2.2” 锁 粒度 


一 种 提高 共享 资源 并 发 性 的 方式 就 是 让 锁定 对 象 更 有 选择 性 。 尽 
量 只 锁定 需要 修改 的 部 分 数据 ， 而 不 是 所 有 的 资产 。 更 理想 的 方式 
是 ， 只 对 会 修改 的 数据 片 进行 精确 的 锁定 。 任 何 时 候 ， 在 给 定 的 资源 
上 ， 锁 定 的 数据 量 越 少 ， 则 系统 的 并 发 程度 越 高 ， 只 要 相互 之 间 不 发 
生 冲突 即 可 。 


问题 是 加 锁 也 需要 消耗 资源 。 锁 的 各 种 操作 ， 包 括 获 得 锁 、 检 查 
锁 是 否 已 经 解除 、 释 放 锁 等 ， 都 会 增加 系统 的 开销 。 如 果 系 统 伦 费 大 
量 的 时 间 来 管理 锁 ， 而 不 是 存 取 数 据 ， 那 么 系统 的 性 能 可 能 会 因此 受 


到 影响 。 

所 谓 的 锁 策 略 ， 就 是 在 锁 的 开销 和 数据 的 安全 性 之 间 寻 求 平 衡 ， 
这 种 平衡 当然 也 会 影响 到 性 能 。 大 多 数 商 业 数 据 库 系统 没有 提供 更 多 
的 选择 ， 一 般 都 是 在 表 上 施加 行 级 锁 (row-level lock) ， 并 以 各 种 复 


杂 的 方式 来 实现 ， 以 便 在 锁 比 较 多 的 情况 下 尽 可 能 地 提供 更 好 的 性 
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而 MySQL 则 提供 了 多 种 选择 。 每 种 MySQL 存 储 引 擎 都 可 以 实现 
自己 的 锁 策略 和 锁 粒度 。 在 存储 引擎 的 设计 中 ， 锁 管理 是 个 非常 重要 
的 决定 。 将 锁 粒 度 固定 在 某 个 级 别 ， 可 以 为 某 些 特定 的 应 用 场景 提供 
更 好 的 性 能 ， 但 同时 却 会 失去 对 另外 一 些 应 用 场景 的 展 好 支持 。 好 在 
MySQL 支 持 多 个 存储 引擎 的 架构 ， 所 以 不 需要 单一 的 通用 解决 方案 。 
下 面 将 介绍 两 种 最 重要 的 锁 策略 。 


表 锁 (table lock) 


表 锁 是 MySQL 中 最 基本 的 锁 策 略 ， 并 且 是 开销 最 小 的 策略 。 表 锁 
非常 类 似 于 前 文 描述 的 邮箱 加 锁 机 制 : 它 会 锁定 整 张 表 。 一 个 用 户 在 
对 表 进 行 写 操作 (插入 、 删 除 、 更 新 等 ) 前 ， 需 要 先 获得 写 锁 ， 这 会 
阻塞 其 他 用 户 对 该 表 的 所 有 读 写 操作 。 只 有 没有 写 锁 时 ， 其 他 读 取 的 
用 户 才 能 获得 读 锁 ， 读 锁 之 间 是 不 相互 阻塞 的 。 


在 特定 的 场景 中 ， 表 锁 也 可 能 有 民 好 的 性 能 。 例 如 ，READ 
LOCAL 表 锁 支 持 某 些 类 型 的 并 发 写 操 作 。 另 外 ， 写 锁 也 比 读 锁 有 更 高 
的 优先 级 ， 因 此 一 个 写 锁 请 求 可 能 会 被 插入 到 读 锁 队 列 的 前 面 〈 写 锁 
可 以 插入 到 锁 队 列 中 读 锁 的 前 面 ， 反 之 读 锁 则 不 能 插入 到 写 锁 的 前 
面 ) 。 


尽管 存储 引擎 可 以 管理 自己 的 锁 ，MySQL 本 身 还 是 会 使 用 各 种 有 
效 的 表 锁 来 实现 不 同 的 上 目的。 例如， 服务 器 会 为 诸如 ALTER TABLE 之 
类 的 语句 使 用 表 锁 ， 而 忽略 存储 引擎 的 锁 机 制 |。 


行 级 锁 (row lock) 


行 级 锁 可 以 最 大 程度 地 支持 并 发 处 理 (同时 也 带 来 了 最 大 的 锁 开 
销 ) 。 众 所 周知 ， 在 InnoDB 和 XtraDB， 以 及 其 他 一 些 存储 引擎 中 实现 
了 行 级 锁 。 行 级 锁 只 在 存储 引擎 层 实现 ， 而 MySQL 服 务 器 层 (如 有 必 
要 ， 请 回顾 前 文 的 逻辑 架构 图 ) 没有 实现 。 服 务 器 层 完全 不 了 解 存 储 
引擎 中 的 锁 实现 。 在 本 章 的 后 续 内 容 以 及 全 书 中 ， 所 有 的 存储 引擎 都 
以 自己 的 方式 显现 了 锁 机 制 。 


1.3 事务 


在 理解 事务 的 概念 之 前 ， 接 触 数 据 库 系 统 的 其 他 高 级 特性 还 言 
过 早 。 事 务 就 是 一 组 原子 性 的 SQL 查 询 ， 或 者 说 一 个 独立 的 工作 单 
元 。 如 果 数 据 库 引擎 能 够 成 功 地 对 数据 库 应 用 该 组 查询 的 全 部 语句 ， 
那么 就 执行 该 组 查询 。 如 果 其 中 有 任何 一 条 语句 因为 月 并 或 其 他 原因 
无 法 执行 ， 那 么 所 有 的 语句 都 不 会 执行 。 也 就 是 说 ， 事 务 内 的 语句 ， 
要 么 全 部 执行 成 功 ， 要 么 全 部 执行 失败 。 


本 节 的 内 容 并 非 专 属于 MySQL ， 如 果 读 者 已 经 熟悉 了 事务 的 
ACID 的 概念 ， 可 以 直接 跳 转 到 1.3.4 节 。 


银行 应 用 是 解释 事务 必要 性 的 一 个 经 典 例子 。 假 设 一 个 银行 的 数 
据 库 有 两 张 表 : 支票 (checking) RAAB (savings) 表 。 现 在 要 从 
用 户 Jane 的 支票 账户 转移 200 美 元 到 她 的 储 蕃 账户 ， 那 么 需要 至 少 三 个 
步骤 : 


1. 检查 支票 账户 的 余额 高 于 200 美 元 。 


2. 从 支票 账户 余额 中 减 去 200 美 元 。 
3. 在 储 荔 账 户 余额 中 增加 200 美 元 。 


上 述 三 个 步骤 的 操作 必须 打包 在 一 个 事务 中 ， 任 何 一 个 步骤 失 
败 ， 则 必须 回 深 所 有 的 步骤 。 


可 以 用 START TRANSACTION 语 句 开始 一 个 事务 ， 然 后 要 么 使 用 
COMMIT 提 交 事 务 将 修改 的 数据 持久 保留 ， 要 么 使 用 ROLLBACK 撤 销 
所 有 的 修改 。 事 务 SQL 的 样本 如 下 : 


1 START TRANSACTION; 
2 SELECT balance FROM checking WHERE customer_id = 
10233276; 
3 UPDATE checking SET balance = balance - 200.00 WHERE 
customer_id = 10233276; 
4 UPDATE savings SET balance = balance + 200.00 WHERE 
customer_id = 10233276; 


5 COMMIT; 


单纯 的 事务 概念 并 不 是 故事 的 全 部 。 试 想 一 下 ， 如 果 执 行 到 第 四 
条 语句 时 服务 器 月 演 了 ， 会 发 生 什么 ? 天 知道 ， 用 户 可 能 会 损失 200 美 
元 。 再 假如 ， 在 执行 到 第 三 条 语句 和 第 四 条 语句 之 间 时 ， 另 外 一 个 进 
程 要 删除 支票 账户 的 所 有 余额 ， 那 么 结果 可 能 就 是 银行 在 不 知道 这 个 
逻辑 的 情况 下 白白 给 了 Jane 200 美 元 。 


除非 系统 通过 严格 的 ACID 测试 ， 否 则 空谈 事务 的 概念 是 不 够 的 。 
ACID 表示 原子 性 (atomicity) 、 一 致 性 (consistency) 、 隔 离 性 


(isolation) 和 持久 性 (durability) 。 一 个 运行 恨 好 的 事务 处 理 系统 ， 
必须 具备 这 些 标准 特征 。 


JRF (atomicity) 


一 个 事务 必须 被 视 为 一 个 不 可 分 割 的 最 小 工作 单元 ， 整 个 事 
务 中 的 所 有 操作 要 么 全 部 提交 成 功 ， 要 么 全 部 失败 回 滚 ， 对 于 一 
个 事务 来 说 ， 不 可 能 只 执行 其 中 的 一 部 分 操作 ， 这 就 是 事务 的 原 
子 性 。 


一 致 性 (consistency) 


效 据 库 总 是 从 一 个 一 致 性 的 状态 转换 到 另外 一 个 一 致 性 的 状 
态 。 在 前 面 的 例子 中 ， 一 致 性 确保 了 ， 即 使 在 执行 第 三 、 四 条 语 
句 之 间 时 系统 朋 溃 ， 支 票 账户 中 也 不 会 损失 200 美 元 ， 因 为 事务 最 
终 没 有 提交 ， 所 以 事务 中 所 做 的 修改 也 不 会 保存 到 数据 库 中 。 


RAE (isolation) 


通常 来 说 ， 一 个 事务 所 做 的 修改 在 最 终 提 交 以 前 ， 对 其 他 事 

务 是 不 可 见 的 。 在 前 面 的 例子 中 ， 当 执行 完 第 三 条 语句 、 第 四 条 

语句 还 未 开始 时 ， 此 时 有 另外 一 个 账户 汇总 程序 开始 运行 ， 则 其 

到 的 支票 账户 的 余额 并 没有 被 减 去 200 美 元 。 后 面 我 们 讨论 隔离 

级 别 (Isolation level) 的 时 候 ， 会 发 现 为 什么 我 们 要 说 “通常 来 
说 ”是 不 可 见 的 。 


持久 性 (durability) 


一 旦 事务 提交 ， 则 其 所 做 的 修改 就 会 永久 保存 到 数据 库 中 。 
此 时 即使 系统 骨 溃 ， 修 改 的 数据 也 不 会 丢失 。 持 久 性 是 个 有 点 模 
糊 的 概念 ， 因 为 实际 上 持久 性 也 分 很 多 不 同 的 级 别 。 有 些 持久 性 
策略 能 够 提供 非常 强 的 安全 保障 ， 而 有 些 则 未 必 。 而 且 不 可 能 
能 做 到 100% 的 持久 性 保证 的 策略 《如 果 数 据 库 本 身 就 能 做 到 真正 
的 持久 性 ， 那 么 备份 又 怎么 能 增加 持久 性 呢 ? ) 。 在 后 面 的 一 些 
章节 中 ， 我 们 会 继续 讨论 MySQL 中 持久 性 的 真正 含义 。 


事务 的 ACID 特性 可 以 确保 银行 不 会 弄 丢 你 的 钱 。 而 在 应 用 逻辑 
中 ， 要 实现 这 一 点 非常 难 ， 甚 至 可 以 说 是 不 可 能 完成 的 任务 。 一 个 兼 
容 ACID 的 数据 库 系 统 ， 需 要 做 很 多 复杂 但 可 能 用 户 并 没有 觉察 到 的 工 
作 ， 才 能 确保 ACID 的 实现 。 


就 像 锁 粒度 的 升级 会 增加 系统 开销 一 样 ， 这 种 事务 处 理 过 程 中 额 
外 的 安全 性 ， 也 会 需要 数据 库 系统 做 更 多 的 额外 工作 。 一 个 实现 了 
ACID 的 数据 库 ， 相 比 没 有 实现 ACID 的 数据 库 ， 通 常会 需要 更 强 的 
CPU 处 理 能 力 、 更 大 的 内 存 和 更 多 的 磁盘 空间 。 正 如 本 章 不 断 重 复 
的 ， 这 也 正 是 MySQL 的 存储 引擎 架构 可 以 发 挥 优势 的 地 方 。 用 户 可 以 
根据 业务 是 否 需要 事务 处 理 ， 来 选择 合适 的 存储 引擎 。 对 于 一 些 不 需 
要 事务 的 查询 类 应 用 ， 选 择 一 个 非 事务 型 的 存储 引擎 ， 可 以 获得 更 高 
的 性 能 。 即 使 存储 引擎 不 支持 事务 ， 也 可 以 通过 LOCK TABLES AJ 
为 应 用 提供 一 定 程度 的 保护 ， 这 些 选择 用 户 都 可 以 自主 决定 。 


1.3.1 ”隔离 级 别 


隔离 性 其 实 比 想象 的 要 复杂 。 在 SQL 标准 中 定义 了 四 种 隔离 级 
别 ， 每 一 种 级 别 都 规定 了 一 个 事务 中 所 做 的 修改 ， 哪 些 在 事务 内 和 事 


务 间 是 可 见 的 ， 哪 些 是 不 可 见 的 。 较 低级 别 的 隔离 通常 可 以 执行 更 高 
的 并 发 ， 系 统 的 开销 也 更 低 。 


Ey 每 种 存储 引擎 实现 的 隔离 级 别 不 尽 相同 。 如 果 熟 悉 其 他 的 数据 库 产品 ， 可 能 会 发 


现 某 些 特性 和 你 期 望 的 会 有 些 不 一 样 (但 本 节 不 打算 讨论 更 详细 的 内 容 ) 。 读 者 可 以 根据 所 
选择 的 存储 引 掌 ， 查 阅 相关 的 手册 。 


下 面 简单 地 介绍 一 下 四 种 隔离 级 别 。 
READ UNCOMMITTED (未 提交 读 ) 


在 READ UNCOMMITTED 级 别 ， 事 务 中 的 修改 ， 即 使 没有 提 
交 ， 对 其 他 事务 也 都 是 可 见 的 。 事 务 可 以 读 取 未 提交 的 数据 ， 这 
也 被 称 为 脏 读 (Dirty Read) 。 这 个 级 别 会 导致 很 多 问题 ， 从 性 能 
上 来 说 ，READ UNCOMMITTED 不 会 比 其 他 的 级 别 好 太 多 ， 但 却 
缺乏 其 他 级 别 的 很 多 好 处 ， 除 非 真 的 有 非常 必要 的 理由 ， 在 实际 
应 用 中 一 般 很 少 使 用 。 


READ COMMITTED (提交 读 ) 


大 多 数 数据 库 系统 的 默认 隔离 级 别 都 是 READ COMMITTED 
(但 MySQL 不 是 ) o READ COMMITTED 满 足 前 面 提 到 的 隔离 性 
的 简单 定义 : 一 个 事务 开始 时 ， 只 能 “看 见 * 已 经 提交 的 事务 所 做 
的 修改 。 换 句 话说 ， 一 个 事务 从 开始 直到 提交 之 前 ， 所 做 的 任何 
修改 对 其 他 事务 都 是 不 可 见 的 。 这 个 级 别 有 时 候 也 叫做 不 可 重复 
读 (nonrepeatable read) ， 因 为 两 次 执行 同样 的 查询 ， 可 能 会 得 
到 不 一 样 的 结果 。 


REPEATABLE READ (可 重复 读 ) 


REPEATABLE READ 解 决 了 脏 谈 的 问题 。 该 级 别 保证 了 在 同 
一 个 事务 中 多 次 读 取 同样 记录 的 结果 是 一 致 的 。 但 是 理论 上 ， 可 
重复 读 隔离 级 别 还 是 无 法 解决 男 外 一 个 幻 读 (Phantom Read) 的 
问题 。 所 谓 幻 读 ， 指 的 是 当 某 个 事务 在 读 取 某 个 范围 内 的 记录 
时 ， 另 外 一 个 事务 又 在 该 范围 内 插入 了 新 的 记录 ， 当 之 前 的 事务 
再 次 读 取 该 范围 的 记录 时 ， 会 产生 幻 行 (Phantom Row) o 
InnoDB 和 XtraDB 存 储 引 擎 通过 多 版 本 并 发 控制 (MVCC, 
Multiversion Concurrency Control) 解决 了 幻 读 的 问题 。 本 章 稍 后 
会 做 进一步 的 讨论 。 


可 重复 读 是 MySQL 的 默认 事务 隔离 级 别 。 
SERIALIZABLE (可 串 行 化 ) 


SERIALIZABLE 是 最 高 的 隔离 级 别 。 它 通过 强制 事务 串 行 执 
行 ， 避 免 了 前 面 说 的 幻 读 的 问题 。 简 单 来 说 ，SERIALIZABLE 会 
在 读 取 的 每 一 行 数据 上 都 加 锁 ， 所 以 可 能 导致 大 量 的 超时 和 锁 争 
用 的 问题 。 实 际 应 用 中 也 很 少 用 到 这 个 隔离 级 别 ， 只 有 在 非常 需 
要 确保 数据 的 一 致 性 而 且 可 以 接受 没有 并 发 的 情况 下 ， 才 考虑 采 
用 该 级 别 。 


表 1-1: ANSI SQL 隔离 级 别 


隔离 级 别 脏 读 可 能 性 ”不 可 重复 读 可 能 性 ORTE ”加 锁 读 
READ UNCOMMITTED Yes Yes Yes No 
READ COMMITTED No Yes Yes No 
REPEATABLE READ No No Yes No 


SERIALIZABLE No No No Yes 


1.3.2 JEH 


死 锁 是 指 两 个 或 者 多 个 事务 在 同一 资源 上 相互 占用 ， 并 请 求 锁定 
对 方 占用 的 资源 ， 从 而 导致 恶性 循环 的 现象 。 当 多 个 事务 试图 以 不 同 
的 顺序 锁定 资源 时 ， 就 可 能 会 产生 死 锁 。 多 个 事务 同时 锁定 同一 个 资 
源 时 ， 也 会 产生 死 锁 。 例 如 ， 设 想 下 面 两 个 事务 同时 处 理 StockPrice 
表 : 


事务 1 


START TRANSACTION; 

UPDATE StockPrice SET close = 45.50 WHERE stock_id = 4 and 
date = '2002-05-01'; 

UPDATE StockPrice SET close = 19.80 WHERE stock_id = 3 and 
date = '2002-05-02'; 

COMMIT; 


事务 2 


START TRANSACTION; 

UPDATE StockPrice SET high = 20.12 WHERE stock_id = 3 and 
date = '2002-05-02'; 

UPDATE StockPrice SET high = 47.20 WHERE stock_id = 4 and 
date = '2002-05-01'; 

COMMIT; 


如 果 凑 巧 ， 两 个 事务 都 执行 了 第 一 条 UPDATE 语 句 ， 更 新 了 一 行 
数据 ， 同 时 也 锁定 了 该 行 数据 ， 接 着 每 个 事务 都 尝试 去 执行 第 二 条 
UPDATE 语 句 ， 却 发 现 该 行 已 经 被 对 方 锁定 ， 然 后 两 个 事务 都 等 待 对 
方 释 放 锁 ， 同 时 又 持 有 对 方 需要 的 锁 ， 则 陷入 死 循环 。 除 非 有 外 部 因 
素 介 入 才 可 能 解除 死 锁 。 


为 了 解决 这 种 问题 ， 数 据 库 系统 实现 了 各 种 死 锁 检测 和 和 死 锁 超时 
机 制 。 越 复杂 的 系统 ， 比 如 InnoDB 存 储 引 擎 ， 越 能 检测 到 死 锁 的 循环 
依赖 ， 并 立即 返回 一 个 错误 。 这 种 解决 方式 很 有 效 ， 否 则 死 锁 会 导 宇 
出 现 非 常 慢 的 查询 。 还 有 一 种 解决 方式 ， 就 是 当 碍 询 的 时 间 达 到 锁 等 
待 超时 的 设 定 后 放弃 锁 请 求 ， 这 种 方式 通常 来 说 不 太 好 。InnoDB 目 前 
处 理 死 锁 的 方法 是 ， 将 持 有 最 少 行 级 排他 锁 的 事务 进行 回 滚 《这 是 相 
对 比较 简单 的 死 锁 回 滚 算 法 ) o 


锁 的 行为 和 顺序 是 和 存储 引擎 相关 的 。 以 同样 的 顺序 执行 语句 ， 
有 些 存储 引擎 会 产生 死 锁 ， 有 些 则 不 会 。 死 锁 的 产生 有 双重 原因 : 有 
些 是 因为 真正 的 数据 冲突 ， 这 种 情况 通常 很 难 避 免 ， 但 有 些 则 完全 是 
由 于 存储 引擎 的 实现 方式 导致 的 。 

死 锁 发 生 以 后 ， 只 有 部 分 或 者 完全 回 滚 其 中 一 个 事务 ， 才 能 打破 
死 锁 。 对 于 事务 型 的 系统 ， 这 是 无 法 避免 的 ， 所 以 应 用 程序 在 设计 时 
必须 考虑 如 何 处 理 死 锁 。 大 多 数 情况 下 只 需要 重新 执行 因 死 锁 回 滚 的 
事务 即 可 。 


1.3.3 ”事务 日 志 


事务 日 志 可 以 帮助 提高 事务 的 效率 。 使 用 事务 日 志 ， 人 存储 引擎 在 
修改 表 的 数据 时 只 需要 修改 其 内 存 拷贝 ， 再 把 该 修改 行为 记录 到 持久 
在 硬盘 上 的 事务 日 志 中 ， 而 不 用 每 次 都 将 修改 的 数据 本 身 持久 到 磁 
盘 。 事 务 日 志 采 用 的 是 追加 的 方式 ， 因 此 写 日 志 的 操作 是 磁盘 上 一 小 
块 区 域内 的 顺序 IO ， 而 不 像 随机 IO 需要 在 磁盘 的 多 个 地 方 移动 磁 
头 ， 所 以 采用 事务 日 志 的 方式 相对 来 说 要 快 得 多 。 事 务 日 志 持 久 以 
后 ， 内 存 中 被 修改 的 数据 在 后 台 可 以 慢 慢 地 刷 回 到 磁盘 。 目 前 大 多 数 
存储 引擎 都 是 这 样 实 现 的 ， 我 们 通常 称 之 为 预 写 式 日 志 (Write-Ahead 
Logging) ， 修 改 数据 需要 写 两 次 磁盘 。 


如 果 数 据 的 修改 已 经 记录 到 事务 日 志 并 持久 化 ， 但 数据 本 身 还 没 
有 写 回 磁盘 ， 此 时 系统 骨 溃 ， 人 存储 引擎 在 重启 时 能 够 自动 恢复 这 部 分 
修改 的 数据 。 具 体 的 恢复 方式 则 视 存储 引擎 而 定 。 


1.3.4 MySQL 中 的 事务 


MySQL 提 供 了 两 种 事务 型 的 存储 引擎 : InnoDB 和 NDB Cluster. 
另外 还 有 一 些 第 三 方 存储 引擎 也 支持 事务 ， 比 较 知名 的 包括 XtraDB 和 
PBXT。 后 面 将 详细 讨论 它们 各 自 的 一 些 特点 。 


自动 提交 (AUTOCOMMIT) 


MySQL 默 认 采 用 自动 提交 (AUTOCOMMIT) 模式 。 也 就 是 说 ， 
如 果 不 是 显 式 地 开始 一 个 事务 ， 则 每 个 查询 都 被 当 作 一 个 事务 执行 提 
交 操 作 。 在 当前 连接 中 ， 可 以 通过 设置 AUTOCOMMIT 变 量 来 启用 或 
者 禁用 自动 提交 模式 : 


mysql> SHOW VARIABLES LIKE “AUTOCONMMIT ; 
+---------------+-------+ 


+---------------+-------+ 


+---------------+-------+ 
1 row in set (0.00 sec) 
mysql> SET AUTOCOMMIT = 1; 


1 或 者 ON 表示 启用 ，0 或 者 OFF 表 示 禁 用 。 当 AUTOCOMMIT=0 
时 ， 所 有 的 查询 都 是 在 一 个 事务 中 ， 直 到 显 式 地 执行 COMMIT 提 交 5 
者 ROLLBACK 回 滚 ， 该 事务 结束 ， 同 时 又 开始 了 另 一 个 新 事务 。 修 改 
AUTOCOMMIT 对 非 事 务 型 的 表 ， 比 如 MyISAM 或 者 内 存 表 ， 不 会 有 
任何 影响 。 对 这 类 表 来 说 ， 没 有 COMMIT 或 者 ROLLBACK 的 概念 ， 也 
可 以 说 是 相当 于 一 直 处 于 AUTOCOMMIT 启 用 的 模式 。 


另外 还 有 一 些 命令 ， 在 执行 之 前 会 强制 执行 COMMIT 提 交 当 前 的 
活动 事务 。 典 型 的 例子 ， 在 数据 定义 语言 (DDL) 中 ， 如 果 是 会 导 到 
大 量 数据 改变 的 操作 ， 比 如 ALTER TABLE ， 就 是 如 此 。 另 外 还 有 
LOCK TABLES 等 其 他 语句 也 会 导致 同样 的 结果 。 如 果 有 需要 ， 请 检 
查 对 应 版 本 的 官方 文档 来 确认 所 有 可 能 导致 自动 提交 的 语句 列表 。 


MySQL 可 以 通过 执行 SET TRANSACTION ISOLATION LEVEL 命 
令 来 设置 隔离 级 别 。 新 的 隔离 级 别 会 在 下 一 个 事务 开始 的 时 候 生 效 。 
可 以 在 配置 文件 中 设置 整个 数据 库 的 隔离 级 别 ， 也 可 以 只 改变 当前 会 
话 的 隔离 级 别 : 


mysql> SET SESSION TRANSACTION ISOLATION LEVEL READ 


COMMITTED; 


MySQL 能 够 识别 所 有 的 4 个 ANSI 隔 离 级 别 ，InnoDB3 引 | 擎 也 支持 所 
有 的 隔离 级 别 。 


在 事务 中 混合 使 用 存储 引擎 


MySQL 服 务 器 层 不 管理 事务 ， 事 务 是 由 下 层 的 人 存储 引擎 实现 的 。 
所 以 在 同一 个 事务 中 ， 使 用 多 种 存储 引 稳 是 不 可 靠 的 。 


如 果 在 事务 中 混合 使 用 了 事务 型 和 非 事务 型 的 表 (例如 InnoDB 和 
MyISAM 表 ) ， 在 正常 提交 的 情况 下 不 会 有 什么 问题 。 


但 如 果 该 事务 需要 回 滚 ， 非 事务 型 的 表 上 的 变更 就 无 法 撤销 ， 这 
导致 数据 库 处 于 不 一 致 的 状态 ， 这 种 情况 很 难 修复 ， 事 务 的 最 终结 
果 将 无 法 确定 。 所 以 ， 为 每 张 表 选 择 合 适 的 存储 引擎 非常 重要 。 


在 非 事 务 型 的 表 上 执行 事务 相关 操作 的 时 候 ，MySQL 通 单 不 会 帮 
出 提醒 ， 也 不 会 报错 。 有 了 时候 只 有 回 深 的 时 候 才 会 发 出 一 个 警告 :“ 某 
些 非 事 务 型 的 表 上 的 变更 不 能 被 回 滚 ”。 但 大 多 数 情况 下 ， 对 非 事 务 型 
表 的 操作 都 不 会 有 提示 。 


隐 式 和 显 式 锁定 


InnoDB 采 用 的 是 两 阶段 锁定 协议 (two-phase locking protocol) o 
在 事务 执行 过 程 中 ， 随 时 都 可 以 执行 锁定 ， 锁 只 有 在 执行 COMMIT 或 
者 ROLLBACK 的 时 候 才 会 释放 ， 并 且 所 有 的 锁 是 在 同一 时 刻 被 释放 。 
前 面 描述 的 锁定 都 是 隐 式 锁定 ，InnoDB 会 根据 隔离 级 别 在 需要 的 时 候 
自动 加 锁 。 


另外 ，InnoDB 也 支持 通过 特定 的 语句 进行 显 式 锁 定 ， 这 些 语句 不 
属于 SQL 规范 (3): 


e SELECT ... LOCK IN SHARE MODE 
e SELECT ... FOR UPDATE 


MySQL 也 支持 LOCK TABLES 和 UNLOCK TABLES 语 句 ， 这 是 在 
服务 器 层 实 现 的 ， 和 存储 引 敬 无关 。 它 们 有 自己 的 用 途 ， 但 并 不 能 蔡 
代 事 务 处 理 。 如 果 应 用 需要 用 到 事务 ， 还 是 应 该 选择 事务 型 存储 引 


apr 
=o 


经 常 可 以 发 现 ， 应 用 已 经 将 表 从 MyISAM 转 换 到 InnoDB ， 但 还 是 
显 式 地 使 用 LOCK TABLES 语 句 。 这 不 但 没有 必要 ， 还 会 严重 影响 性 
能 ， 实 际 上 InnoDB 的 行 级 锁 工 作 得 更 好 。 


一 LOCK TABLES 和 事务 之 间 相 互 影响 的 话 ， 情 况 会 变 得 非常 复杂 ， 在 某 些 


MysQL 版 本 中 甚至 会 产生 无 法 预料 的 结果 。 因此 ， 本 书 建议 ， 除 了 事务 中 禁用 了 
AUTOCOMMIT， 可 以 使 用 LOCK TABLES 之 外 ， 其 他 任何 时 候 都 不 要 显 式 地 执行 LOCK 
TABLES， 不 管 使 用 的 是 什么 存储 引擎 。 


14 多 版 本 并 发 控制 


MySQL 的 大 多 数 事务 型 存储 引擎 实现 的 都 不 是 简单 的 行 级 锁 。 基 
于 提升 并 发 性 能 的 考虑 ， 它 们 一 般 都 同时 实现 了 多 版 本 并 发 控制 
(MVCC) 。 不 仅 是 MySQL ， 包 括 Oracle、PostgreSQL 等 其 他 数据 库 
系统 也 都 实现 了 MVCC， 但 各 自 的 实现 机 制 不 尽 相 同 ， 因 为 MVCC 没 
有 一 个 统一 的 实现 标准 。 


可 以 认为 MVCC 是 行 级 锁 的 一 个 变种 ， 但 是 它 在 很 多 情况 下 避免 
了 加 锁 操 作 ， 因 此 开销 更 低 。 虽 然 实 现 机 制 有 所 不 同 ， 但 大 都 实现 了 
非 阻 塞 的 读 操作 ， 写 操作 也 只 锁定 必要 的 行 。 


MVCC 的 实现 ， 是 通过 保存 数据 在 某 个 时 间 点 的 快照 来 实现 的 。 
也 就 是 说 ， 不 管 需要 执行 多 长 时 间 ， 每 个 事务 看 到 的 数据 都 是 一 致 
的 。 根 据 事务 开始 的 时 间 不 同 ， 每 个 事务 对 同一 张 表 ， 同 一 时 刻 看 到 
的 数据 可 能 是 不 一 样 的 。 如 果 之 前 没有 这 方面 的 概念 ， 这 人 句 话 听 起 来 
就 有 点 迷惑 。 熟 悉 了 以 后 会 发 现 ， 这 句 话 其 实 还 是 很 容易 理解 的 。 


前 面 说 到 不 同 存 储 引 擎 的 MVCC 实 现 是 不 同 的 ， 上 典型 的 有 乐观 
(optimistic) 并 发 控制 和 悲观 (pessimistic) 并 发 控制 。 下 面 我 们 通过 
InnoDB 的 简化 版 行为 来 说 明 MVCC 是 如 何 工作 的 。 


InnoDB 的 MVCC， 是 通过 在 每 行 记录 后 面 保 存 两 个 隐藏 的 列 来 实 
现 的 。 这 两 个 列 ， 一 个 保存 了 行 的 创建 时 间 ， 一 个 保存 行 的 过 期 时 间 
(或 删除 时 间 ) 。 当 然 存储 的 并 不 是 实际 的 时 间 值 ， 而 是 系统 版 本 号 
(system version number) 。 每 开始 一 个 新 的 事务 ， 系 统 版 本 号 都 会 自 
动 递 增 。 事 务 开始 时 刻 的 系统 版 本 号 会 作为 事务 的 版 本 号 ， 用 来 和 查 
询 到 的 每 行 记 录 的 版 本 号 进行 比较 。 下 面 看 一 下 在 REPEATABLE 
READ 隔 离 级 别 下 ，MVCC 具 体 是 如 何 操 作 的 。 


SELECT 
InnoDB 会 根据 以 下 两 个 条 件 检 查 每 行 记录 : 


a. InnoDB 只 查找 版 本 早 于 当前 事务 版 本 的 数据 行 (也 就 
是 ， 行 的 系统 版 本 号 小 于 或 等 于 事务 的 系统 版 本 号 ) , 


这 样 可 以 确保 事务 读 取 的 行 ， 要 么 是 在 事务 开始 前 已 经 
存在 的 ， 要 么 是 事务 目 身 插 入 或 者 修改 过 的 。 
b. 行 的 删除 版 本 要 么 未 定义 ， 要 么 大 于 当前 事务 版 本 号 。 
这 可 以 确保 事务 读 取 到 的 行 ， 在 事务 开始 之 前 未 被 删 
除 。 


只 有 符合 上 述 两 个 条 件 的 记录 ， 才 能 返回 作为 查询 结果 。 
INSERT 


InnoDB 为 新 插入 的 每 一 行 保存 当前 系统 版 本 号 作为 行 版 本 


号 


写 o 
DELETE 


InnoDB 为 删除 的 每 一 行 保存 当前 系统 版 本 号 作为 行 删除 标 


识 。 
UPDATE 


InnoDB 为 插入 一 行 新 记录 ， 保 存 当 前 系统 版 本 号 作为 行 版 本 
号 ， 同 时 保存 当前 系统 版 本 号 到 原来 的 行 作为 行 删除 标识 。 


保存 这 两 个 额外 系统 版 本 号 ， 使 大 多 数 读 操作 都 可 以 不 用 加 锁 。 
这 样 设 计 使 得 读数 据 操作 很 简单 ， 性 能 很 好 ， 并 且 也 能 保证 只 会 读 取 
到 符合 标准 的 行 。 不 足 之 处 是 每 行 记录 都 需要 额外 的 存储 空间 ， 需 要 
做 更 多 的 行 检查 工作 ， 以 及 一 些 额外 的 维护 工作 。 


MVCC 只 在 REPEATABLE READ 和 READ COMMITTED 两 个 隔离 
级 别 下 工作 。 其 他 两 个 隔离 级 别 都 和 MVCC 不 兼容 名 ， 因 为 READ 
UNCOMMITTED 总 是 读 取 最 新 的 数据 行 ， 而 不 是 符合 当前 事务 版 本 的 
数据 行 。 而 SERIALIZABLE 则 会 对 所 有 读 取 的 行 都 加 锁 。 


1.5 MySQL 的 存储 引擎 


本 市 只 是 概要 地 描述 MySQL 的 存储 引擎 ， 而 不 会 涉及 太 多 细节 。 
因为 关于 存储 引擎 的 讨论 及 其 相关 特性 将 会 贯穿 全 书 ， 而 且 本 书 也 不 
是 存储 引擎 的 完全 指南 ， 所 以 有 必要 阅读 相关 存储 引擎 的 官方 文档 。 


在 文件 系统 中 ，MySQL 将 每 个 数据 库 (也 可 以 称 之 为 schema) 保 
存 为 数据 目录 下 的 一 个 子 目 录 。 创 建 表 时 ，MySQL 会 在 数据 库 子 目录 
下 创建 一 个 和 表 同 名 的 .frm 文 件 保存 表 的 定义 。 例 如 创建 一 个 名 为 
MyTable 的 表 ，MySQL 会 在 MyTable.frm 文 件 中 保存 该 表 的 定义 。 因 为 
MySQL 使 用 文件 系统 的 目录 和 文件 来 保存 数据 库 和 表 的 定义 ， 大 小 写 
敏感 性 和 具体 的 平台 密切 相关 。 在 Windows 中 ， 大 小 写 是 不 敏感 的 ; 
而 在 类 Unix 中 则 是 敏感 的 。 不 同 的 存储 引擎 保存 数据 和 索引 的 方式 是 
不 同 的 ， 但 表 的 定义 则 是 在 MySQL 服 务 层 统一 处 理 的 。 


可 以 使 用 SHOW TABLE STATUS 命令 (在 MySQL 5.0 以 后 的 版 本 
中 ， 也 可 以 查询 INFORMATION_SCHEMA 中 对 应 的 表 ) 显示 表 的 相 
关 信 息 。 例 如， 对 于 mysql 数 据 库 中 的 user 表 : 


mysql> SHOW TABLE STATUS LIKE 'user' \G 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 1 row 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Name: user 
Engine: MyISAM 
Row_format: Dynamic 
Rows: 6 
Avg_row_length: 59 
Data_length: 356 
Max_data_length: 4294967295 
Index_length: 2048 
Data_free: 0 
Auto_increment: NULL 
Create_time: 2002-01-24 18:07:17 
Update_time: 2002-01-24 21:56:29 
Check_time: NULL 
Collation: utf8_bin 
Checksum: NULL 
Create_options: 
Comment: Users and global privileges 


1 row in set (0.00 sec) 


输出 的 结果 表明 ， 这 是 一 个 MyISAM 表 。 输 出 中 还 有 很 多 其 他 信 
息 以 及 统计 信息 。 下 面 简单 介绍 一 下 每 一 行 的 含义 。 


Name 
表 名 。 


Engine 


表 的 存储 引擎 类 型 。 在 旧版 本 中 ， 该 列 的 名 字 叫 Type， 而 不 


是 Engine。 
Row_format 


行 的 格式 。 对 于 MyISAM 表 ， 可 选 的 值 为 Dynamic、 Fixed 或 
者 Compressed。 Dynamic 的 行 长 度 是 可 变 的 ， 一 般 包含 可 变 长 度 
的 字段 ， 如 VARCHAR 或 BLOB。Fixed 的 行 长 度 则 是 固定 的 ， 只 
包含 固定 长 度 的 列 ， 如 CHAR 和 INTEGER。 Compressed 的 行 则 只 
在 压缩 表 中 存在 ， 请 参考 第 19 页 “MyISAM 上 压缩 表 ” 一 节 。 


Rows 


表 中 的 行 数 。 对 于 MyISAM 和 其 他 一 些 存 储 引 擎 ， 该 值 是 精 
确 的 ， 但 对 于 InnoDB， 该 值 是 估计 值 。 


Avg_row_length 

平均 每 行 包含 的 字 节 数 。 
Data_length 

表 数 据 的 大 小 (以 字 节 为 单位 ) o 
Max_data_length 

表 数 据 的 最 大 容量 ， 该 值 和 存储 引擎 有 天 。 


Index_length 


索引 的 大 小 (以 字 节 为 单位 ) o 
Data_free 


对 于 MyISAM 表 ， 表 示 已 分 配 但 目前 没有 使 用 的 空间 。 这 音 
分 空间 包括 了 之 前 删除 的 行 ， 以 及 后 续 可 以 被 INSERT 利 用 到 的 空 
间 。 


Auto_increment 

下 一 个 AUTO_INCREMENT 的 值 。 
Create_time 

表 的 创建 时 间 。 
Update_time 

表 数 据 的 最 后 修改 时 间 。 
Check_time 


使 用 CKECK TABLE 命 令 或 者 myisamchk 工 具 最 后 一 次 检查 表 
的 时 间 。 


Collation 
表 的 默认 字符 集 和 字符 列 排序 规则 。 


Checksum 


如 果 启 用 ， 保 存 的 是 整个 表 的 实时 校 验 和 。 
Create_options 

创建 表 时 指定 的 其 他 选项 。 
Comment 


该 列 包 含 了 一 些 其 他 的 额外 信息 。 对 于 MyISAM 表 ， 保 存 的 
是 表 在 创建 时 带 的 注释 。 对 于 InnoDB 表 ， 则 保存 的 是 InnoDB 表 空 
间 的 剩余 空间 信息 。 如 果 是 一 个 视图 ， 则 该 列 包含 “VIEW” 的 文本 
字样 。 


1.5.1 InnoDB 存 储 引 擎 


InnoDB 是 MySQL 的 默认 事务 型 引擎 ， 也 是 最 重要 、 使 用 最 广泛 的 
存储 引擎 。 它 被 设计 用 来 处 理 大 量 的 短期 (short-lived) 事务 ， 短 期 事 
务 大 部 分 情况 是 正常 提交 的 ， 很 少 会 被 回 深 。InnoDB 的 性 能 和 自动 崩 
溃 恢 复 特 性 ， 使 得 它 在 非 事 务 型 存储 的 需求 中 也 很 流行 。 除 非 有 非常 
特别 的 原因 需要 使 用 其 他 的 存储 引擎 ， 否 则 应 该 优先 考虑 InnoDB 引 
擎 。 如 果 要 学 习 存 储 引 擎 ，InnoDB 也 是 一 个 非常 好 的 值得 人 花 最 多 的 时 
间 去 深入 学 习 的 对 象 ， 收 益 肯定 比 将 时 间 平 均 花 在 每 个 存储 引擎 的 学 
习 上 要 高 得 多 。 


InnoDB 的 历史 


InnoDB 有 着 复杂 的 发 布 历 史 ， 了 解 一 下 这 段 历史 对 于 理解 InnoDB 
很 有 帮助 。2008 年 ， 发 布 了 所 谓 的 mnoDB plugin, iS FMySQL 5.1 
版 本 ， 但 这 是 Oracle 创 建 的 下 一 代 InnoDB3| 擎 ， 其 拥有 者 是 mnoDB 而 
不 是 MySQL。 这 基于 很 多 原因 ， 这 些 原 因 如 果 要 一 一 道 来 ， 了 恐怕 得 喝 
掉 好 几 桶 啤酒 。MySQL 默 认 还 是 选择 了 集成 旧 的 InnoDB 引 | 擎 。 当 然 用 
户 可 以 自行 选择 使 用 新 的 性 能 更 好 、 扩 展 性 更 佳 的 InnoDB plugin 来 覆 
盖 旧 的 版 本 。 直 到 最 后 ， 在 Oracle 收 购 了 Sun 公 司 后 发 布 的 MySQL 5.5 
中 才 彻 底 使 用 InnoDB plugin 替 代 了 旧版 本 的 InnoDB (是 的 ， 这 也 意味 
着 InnoDB plugin 已 经 是 原生 编译 了 ， 而 不 是 编译 成 一 个 插件 ， 但 名 字 
已 经 约定 俗 成 很 难 更 改 ) 。 


这 个 现代 的 InnoDB 版 本 ， 也 就 是 MySQL 5.1 中 所 谓 的 InnoDB 
plugin， 支 持 一 些 新 特性 ， 诸 如 利用 排序 创建 索引 (building index by 
sorting) 、 删 除 或 者 增加 索引 时 不 需要 复制 全 表 数 据 、 新 的 支持 压缩 
的 存储 格式 、 新 的 大 型 列 值 如 BLOB 的 存储 方式 ， 以 及 文件 格式 管理 
等 。 很 多 用 户 在 MySQL 5.1 中 没有 使 用 InnoDB plugin， 或 许 是 因为 他 
们 没有 注意 到 有 这 个 区 别 。 所 以 如 果 你 使 用 的 是 MySQL 5.1, 一定 要 
使 用 InnoDB plugin， 真 的 比 旧 版 本 的 InnoDB 要 好 很 多 。 


InnoDB 是 一 个 很 重要 的 存储 引擎 ， 很 多 个 人 和 公司 都 对 其 贡献 代 
码 ， 而 不 仅仅 是 Oracle 公 司 的 开发 团队 。 一 些 重 要 的 贡献 者 包括 
Google, Yasufumi Kinoshita, Percona, Facebook 等 ， 他 们 的 一 些 改进 
被 直接 移植 到 官方 版 本 ， 也 有 一 些 由 InnoDB 团 队 重 新 实现 。 在 过 去 的 
几 年 间 ，InnoDB 的 改进 速度 大 大 加 快 ， 主 要 的 改进 集中 在 可 测量 性 、 
可 扩展 性 、 可 配置 化 、 性 能 、 各 种 新 特性 和 对 Windows 的 支持 等 方 
Ho MySQL 5.6 实 验 室 预览 版 和 里 程 碑 版 也 包含 了 一 系列 重要 的 
InnoDB 新 特性 。 


为 改善 mnoDB 的 性 能 ，Oracle 投 入 了 大 量 的 资产 ， 并 做 了 很 多 卓 
有 成 效 的 工作 〈 外 部 贡献 者 对 此 也 提供 了 很 大 的 帮助 ) 。 在 本 书 的 第 
二 版 中 ， 我 们 注意 到 在 超过 四 核 CPU 的 系统 中 InnoDB 表 现 不 佳 ， 而 现 
在 已 经 可 以 很 好 地 扩展 至 24 核 的 系统 ， 甚 至 在 某 些 场景 ，32 核 或 者 更 
多 核 的 系统 中 也 表现 良好 。 很 多 改进 将 在 即将 发 布 的 MySQL 5.6 中 引 
入 ， 当 然 也 还 有 机 会 做 更 进一步 的 改善 。 


InnoDB 概 览 


InnoDB 的 数据 存储 在 表 空 间 (tablespace) 中 ， 表 空间 是 由 
InnoDB 管 理 的 一 个 黑 盒 子 ， 由 一 系列 的 数据 文件 组 成 。 在 MySQL 4.1 
以 后 的 版 本 中 ，InnoDB 可 以 将 每 个 表 的 数据 和 索引 存放 在 单独 的 文件 
中 。InnoDB 也 可 以 使 用 裸 设 备 作 为 表 空间 的 存储 介质 ， 但 现代 的 文件 
系统 使 得 裸 设 备 不 再 是 必要 的 选择 。 


InnoDB 采 用 MVCC 来 支持 高 并 发 ， 并 且 实 现 了 四 个 标准 的 隔离 级 
别 。 其 默认 级 别 是 REPEATABLE READ (可 重复 读 ) ， 并 且 通 过 间隙 
锁 (next-key locking) 策略 防止 幻 读 的 出 现 。 间 聊 锁 使 得 mnoDB 不 仅 
仅 锁定 查询 涉及 的 行 ， 还 会 对 索引 中 的 间 隐 进行 锁定 ， 以 防止 幻影 行 
的 插入 。 


InnoDB 表 是 基于 聚 徐 索 引 建立 的 ， 我 们 会 在 后 面 的 章节 详细 讨论 
聚 簇 索 引 。InnoDB 的 索引 结构 和 MySQL 的 其 他 存储 引擎 有 很 大 的 不 
同 ， 聚 簇 索引 对 主键 查询 有 很 高 的 性 能 。 不 过 它 的 二 级 索引 

(secondary index， 非 主键 索引 ) 中 必须 包含 主键 列 ， 所 以 如 果 主 键 列 
很 大 的 话 ， 其 他 的 所 有 索引 都 会 很 大 。 因 此 ， 知 表 上 的 索引 较 多 的 
话 ， 主 键 应 当 尽 可 能 的 小 。InnoDB 的 存储 格式 是 平台 独立 的 ， 也 就 是 


说 可 以 将 数据 和 索引 文件 从 Ptel 平 台 复 制 到 PowerPC 或 者 Sun SPARC 


全 
Ao 


InnoDB 内 部 做 了 很 多 优化 ， 包 括 从 磁盘 读 取 数 据 时 采用 的 可 预测 
性 预 读 ， 能 够 自动 在 内 存 中 创建 hash 索 引 以 加 速 读 操作 的 自 适 应 哈 希 
索引 (adaptive hash index) ， 以 及 能 够 加 速 插入 操作 的 插入 缓冲 区 
(insert buffer) 等 。 本 书后 面 将 更 详细 地 讨论 这 些 内 容 。InnoDB 的 行 
为 是 非常 复杂 的 ， 不 容易 理解 。 如 果 使 用 了 InnoDB 引 擎 ， 笔 者 强烈 建 
议 阅读 官方 手册 中 的 “InnoDB 事 务 模型 和 锁 ” 一 节 。 如 果 应 用 程序 基于 
InnoDB 构 建 ， 则 事先 了 解 一 下 InnoDB 的 MVCC 架 构 带 来 的 一 些微 妙 和 
细节 之 处 是 非常 有 必要 的 。 存 储 引 擎 要 为 所 有 用 户 甚至 包括 修改 数据 
的 用 户 维 持 一 致 性 的 视图 ， 是 非常 复杂 的 工作 。 


作为 事务 型 的 存储 引擎 ，InnoDB 通 过 一 些 机 制 和 工具 支持 真正 的 
热 备 份 ，Oracle 提 供 的 MySQL Enterprise Backup、Percona 提 供 的 开源 
的 XtraBackup 都 可 以 做 到 这 一 点 。MySQL 的 其 他 存储 引擎 不 支持 热 备 
份 ， 要 获取 一 致 性 视图 需要 停止 对 所 有 表 的 写 入 ， 而 在 读 写 混合 场景 
中 ， 停 止 写 入 可 能 也 意味 着 停止 读 取 。 


1.5.2 MyISAM 存 储 引 擎 


TE MySQL 5.1 及 之 前 的 版 本 ，MyISAM 是 默认 的 存储 引擎 。 
MyISAM 提 供 了 大 量 的 特性 ， 包 括 全 文 索引 、 压 缩 、 空 间 函 数 (GIs) 
等 ， 但 MyISAM 不 支持 事务 和 行 级 锁 ， 而 且 有 一 个 宫 无 疑问 的 缺陷 就 
是 骨 溃 后 无 法 安全 恢复 。 正 是 由 于 MyISAM5 引 警 的 缘故 ， 即 使 MySQL 
支持 事务 已 经 很 长 时 间 了 ， 在 很 多 人 的 概念 中 MySQL 还 是 非 事 务 型 的 
数据 库 。 尽 管 MyISAM5 引 和 擎 不 支持 事务 、 不 支持 朋 冲 后 的 安全 恢复 ， 


但 它 绝 不 是 一 无 是 处 的 。 对 于 只 读 的 数据 ， 或 者 表 比 较 小 、 可 以 忍受 
修复 (repair) 操作 ， 则 依然 可 以 继续 使 用 MyISAM (但 请 不 要 默认 使 
用 MyISAM， 而 是 应 当 默 认 使 用 mnoDB) o 


存储 


MyISAM 会 将 表 存 储 在 两 个 文件 中 : 数据 文件 和 索引 文件 ， 分 别 
以 .MYD 和 .MYI 为 扩展 名 。MyISAM 表 可 以 包含 动态 或 者 静态 (KEE 
E) 行 。MySQL 会 根据 表 的 定义 来 决定 采用 何 种 行 格式 。MyISAM 表 
可 以 存储 的 行 记 录 数 ， 一 般 受 限于 可 用 的 磁盘 空间 ， 或 者 操作 系统 中 
单个 文件 的 最 大 尺寸 。 


在 MySQL 5.0 中 ，MyISAM 表 如 果 是 变 长 行 ， 则 默认 配置 只 能 处 
理 256TB 的 数据 ， 因 为 指向 数据 记录 的 指针 长 度 是 6 个 字 节 。 而 在 更 早 
的 版 本 中 ， 指 针 长 度 默 认 是 4 字 节 ， 所 以 只 能 处 理 4GB 的 数据 。 而 所 有 
的 MySQL 版 本 都 支持 8 字 节 的 指针 。 要 改变 MyISAM 表 指针 的 长 度 
〈( 调 高 或 者 调 低 ) ， 可 以 通过 修改 表 的 MAX_ ROWS 和 
AVG_ROW_LENGTH 选 项 的 值 来 实现 ， 两 者 相 乘 就 是 表 可 能 达到 的 最 
大 大 小 。 修 改 这 两 个 参数 会 导致 重建 整个 表 和 表 的 所 有 索引 ， 这 可 能 
需要 很 长 的 时 间 才 能 完成 。 


MyISAM 特 性 


作为 MySQL 最 早 的 存储 引擎 之 一 ，MyISAM 有 一 些 已 经 开发 出 来 
很 多 年 的 特性 ， 可 以 满足 用 户 的 实际 需求 。 


加 锁 与 并 发 


MyISAM 对 整 张 表 加 锁 ， 而 不 是 针对 行 。 读 取 时 会 对 需要 读 
到 的 所 有 表 加 共享 锁 ， 写 入 时 则 对 表 加 排他 锁 。 但 是 在 表 有 读 取 
查询 的 同时 ， 也 可 以 往 表 中 插入 新 的 记录 (这 被 称 为 并 发 插入 ， 
CONCURRENT INSERT) 。 


RS 
\ 


多 复 


对 于 MyISAM 表 ，MySQL 可 以 手工 或 者 自动 执行 检查 和 修复 
操作 ， 但 这 里 说 的 修复 和 事务 恢复 以 及 朋 溃 恢复 是 不 同 的 概念 。 
执行 表 的 修复 可 能 导致 一 些 数据 丢失 ， 而 且 修 复 操作 是 非常 慢 
的 。 可 以 通过 CHECK TABLE mytable 检 查 表 的 错误 ， 如 果 有 错误 
可 以 通过 执行 REPAIR TABLE mytable 进行 修复 。 另 外 ， 如 果 
MySQL 服 务 器 已 经 关闭 ， 也 可 以 通过 myisamchk 命 令 行 工 具 进 行 
多 查 和 修复 操作 。 


aS | Felt 


对 于 MyISAM 表 ， 即 使 是 BLOB 和 TEXT 等 长 字段 ， 也 可 以 基 
于 其 前 500 个 字符 创建 索引 。MyISAM 也 支持 全 文 索 引 ， 这 是 一 种 
基于 分 词 创建 的 索引 ， 可 以 支持 复杂 的 查询 。 关 于 索引 的 更 多 信 
息 请 参考 第 5 章 。 


延迟 更 新 索引 键 (Delayed Key Write) 


创建 MyISAM 表 的 时 候 ， 如 果 指 定 了 DELAY_KEY_WRITE 选 
项 ， 在 每 次 修改 执行 完成 时 ， 不 会 立刻 将 修改 的 索引 数据 写 入 磁 
盘 ， 而 是 会 写 到 内 存 中 的 键 缓冲 区 (in-memory key buffer) , R 


有 在 清理 键 缓冲 区 或 者 关闭 表 的 时 候 才 会 将 对 应 的 索引 块 写 入 到 
磁盘 。 这 种 方式 可 以 极 大 地 提升 写 入 性 能 ， 但 是 在 数据 库 或 者 主 
机 朋 冲 时 会 造成 索引 损坏 ， 需 要 执行 修复 操作 。 延 迟 更 新 论 引 键 
的 特性 ， 可 以 在 全 局 设置 ， 也 可 以 为 单个 表 设 置 。 


MyISAM 压 缩 表 


如 果 表 在 创建 并 导入 数据 以 后 ， 不 会 再 进行 修改 操作 ， 那 么 这 样 
的 表 或 许 适 合 采用 MyISAM 压 缩 表 。 


可 以 使 用 myisampack 对 MyISAM 表 进行 压缩 〈 也 叫 打包 pack) o 
压缩 表 是 不 能 进行 修改 的 (除非 先 将 表 解 除 压 缩 ， 修 改 数据 ， 然 后 再 
次 压缩 ) 。 压 缩 表 可 以 极 大 地 减少 磁盘 空间 占用 ， 因 此 也 可 以 减少 磁 
盘 IO， 从 而 提升 查询 性 能 。 压 缩 表 也 支持 索引 ， 但 索引 也 是 只 读 的 。 


以 现在 的 硬件 能 力 ， 对 大 多 数 应 用 场景 ， 读 取 压 缩 表 数据 时 的 解 
压 带 来 的 开销 影响 并 不 大 ， 而 减少 WO 带 来 的 好 处 则 要 大 得 多 。 上 压缩 时 
表 中 的 记录 是 独立 压缩 的 ， 所 以 读 取 单 行 的 时 候 不 需要 去 解压 整个 表 
(甚至 也 不 解压 行 所 在 的 整个 页 面 ) 。 


MyISAM 性 能 


MyISAM3| 擎 设计 简单 ， 数 据 以 紧密 格式 存储 ， 所 以 在 某 些 场景 
下 的 性 能 很 好 。MyISAM 有 一 些 服务 器 级 别 的 性 能 扩展 限制 ， 比 如 对 
索引 键 缓冲 区 (key cache) 的 Mutex 锁 ，MariaDB 基 于 段 (segment) 
的 索引 键 缓冲 区 机 制 来 避免 该 问题 。 但 MyISAM 最 典型 的 性 能 问题 还 


是 表 锁 的 问题 ， 如 果 你 发 现 所 有 的 查询 都 长 期 处 于 “Locked” 状 态 ， 那 
么 曼 无 疑问 表 锁 就 是 徘 购 祸首 。 


1.5.3 “MySQL 内 建 的 其 他 存储 引擎 


MySQL 还 有 一 些 有 特殊 用 途 的 存储 引擎 。 在 新 版 本 中 ， 有 些 可 能 
因为 一 些 原因 已 经 不 再 支持 ; 另外 还 有 些 会 继续 支持 ， 但 是 需要 明确 
地 局 用 后 才能 使 用 。 


Archive 引 擎 


Archive 存 储 引 擎 只 支持 INSERT 和 SELECT 操作 ， 在 MySQL 5.1 之 
前 也 不 支持 索引 。 


Archive 引 擎 会 缓存 所 有 的 写 并 利用 zjib 对 插入 的 行进 行 讨 缩 ， 所 
以 比 MyISAM 表 的 磁盘 IO 更 少 。 但 是 每 次 SELECT 查询 都 需要 执行 全 
表 扫 描 。 所 以 Archive 表 适合 日 志和 数据 采集 类 应 用 ， 这 类 应 用 做 数据 
分 析 时 往往 需要 全 表 扫 描 。 或 者 在 一 些 需 要 更 快速 的 INSERT 操 作 的 场 
合 下 也 可 以 使 用 。 


Archive 引 | 擎 支持 行 级 锁 和 专用 的 缓冲 区 ， 所 以 可 以 实现 高 并 发 的 
插入 。 在 一 个 查询 开始 直到 返回 表 中 存在 的 所 有 行 数 之 前 ，Archive 引 
擎 会 阻止 其 他 的 SELECT 执行 ， 以 实现 一 致 性 读 。 另 外 ， 也 实现 了 批 
量 插入 在 完成 之 前 对 读 操作 是 不 可 见 的 。 这 种 机 制 模仿 了 事务 和 
MVCC 的 一 些 特 性 ， 但 Archive 引 擎 不 是 一 个 事务 型 的 引擎 ， 而 是 一 个 
针对 高 速 插 入 和 压缩 做 了 优化 的 简单 引擎 。 


Blackhole5|# 


Blackhole 引 擎 没有 实现 任何 的 存储 机 制 ， 它 会 丢弃 所 有 插入 的 数 
据 ， 不 做 任何 保存 。 但 是 服务 器 会 记录 Blackhole 表 的 日 志 ， 所 以 可 以 
用 于 复制 数据 到 备 库 ， 或 者 只 是 简单 地 记录 到 日 志 。 这 种 特殊 的 存储 
引擎 可 以 在 一 些 特 殊 的 复制 架构 和 日 志 审 核 时 发 挥 作 用 。 但 这 种 应 用 
方式 我 们 碰 到 过 很 多 问题 ， 因 此 并 不 推荐 。 


CSV 引 和 擎 


CSV 引 擎 可 以 将 普通 的 CSV 文 件 (逗号 分 割 值 的 文件 ) 作为 
MySQL 的 表 来 处 理 ， 但 这 种 表 不 支持 索引 。CSV3 引 | 擎 可 以 在 数据 库 运 
行 时 拷 入 或 者 拷 出 文件 。 可 以 将 Excel 等 电子 表格 软件 中 的 数据 存储 为 
CSV 文 件 ， 然 后 复制 到 MySQL 数 据 目录 下 ， 就 能 在 MySQL 中 打开 使 
用 。 同 样 ， 如 果 将 数据 写 入 到 一 个 CSV 引 擎 表 ， 其 他 的 外 部 程序 也 能 
立即 从 表 的 数据 文件 中 读 取 CSV 格 式 的 数据 。 因 此 CSV 引 擎 可 以 作为 
一 种 数据 交换 的 机 制 ， 非 常 有 用 。 


Federated5 |$ 


Federated 引 | 擎 是 访问 其 他 MySQL 服 务 器 的 一 个 代理 ， 它 会 创建 一 
个 到 远程 MySQL 服 务 器 的 客户 端 连接 ， 并 将 查询 传输 到 远程 服务 器 执 
行 ， 然 后 提取 或 者 发 送 需要 的 数据 。 最 初 设 计 该 存储 引擎 是 为 了 和 企 
业 级 数据 库 如 Microsoft SQL Server 和 Oracle 的 类 似 特性 竞争 的 ， 可 以 
说 更 多 的 是 一 种 市 场 行为 。 尽 管 该 引擎 看 起 来 提供 了 一 种 很 好 的 跨 服 


务 器 的 灵活 性 ， 但 也 经 常 带 来 问题 ， 因 此 默认 是 禁用 的 。MariaDB 使 
用 了 它 的 一 个 后 续 改进 版 本 ， 凯 做 FederatedX。 


Memory5|# 


如 果 需 要 快速 地 访问 数据 ， 并 且 这 些 数据 不 会 被 修改 ， 重 启 以 后 
丢失 也 没有 关系 ， 那 么 使 用 Memory 表 (以 前 也 叫做 HEAP 表 ) 是 非常 
有 用 的 。Memory 表 至 少 比 MyISAM 表 要 快 一 个 数量 级 ， 因 为 所 有 的 数 
据 都 保存 在 内 存 中 ， 不 需要 进行 磁盘 IO。Memory 表 的 结构 在 重启 以 
后 还 会 保留 ， 但 数据 会 丢失 。 


Memroy 表 在 很 多 场景 可 以 发 挥 好 的 作用 : 


。 用 于 查找 (lookup) 或 者 映射 (mapping) 表 ， 例 如 将 邮编 和 州 名 
映射 的 表 。 

。 用 于 缓存 周期 性 聚合 数据 (periodically aggregated data) 的 结果 。 

。 用 于 保存 数据 分 析 中 产生 的 中 间 数 据 。 


Memory 表 支持 Hash 索 引 ， 因 此 查找 操作 非常 快 。 虽 然 Memory 表 
的 速度 非常 快 ， 但 还 是 无 法 取代 传统 的 基于 磁盘 的 表 。Memroy 表 是 表 
级 锁 ， 因 此 并 发 写 入 的 性 能 较 低 。 它 不 支持 BLOB 或 TEXT 类 型 的 列 ， 
并 且 每 行 的 长 度 是 固定 的 ， 所 以 即使 指定 了 VARCHAR 列 ， 实 际 存储 
时 也 会 转换 成 CHAR， 这 可 能 导致 部 分 内 存 的 浪费 (其 中 一 些 限制 在 
Percona 版 本 已 经 解决 ) 。 


如 果 MySQL 在 执行 查询 的 过 程 中 需要 使 用 临时 表 来 保存 中 间 结 
果 ， 内 部 使 用 的 临时 表 就 是 Memory 表 。 如 果 中 间 结 果 太 大 超出 了 


Memory 表 的 限制 ， 或 者 含有 BLOB 或 TEXT 字段 ， 则 临时 表 会 转换 成 
MyISAM 表 。 在 后 续 的 章节 还 会 继续 讨论 该 问题 。 


a 
w 
a 


a 
a 
foo 


4 人 们 经 常 混淆 Memory 表 和 临时 表 。 临 时 表 是 指使 用 CREATE TEMPORARY 


TABLE 语 句 创建 的 表 ， 它 可 以 使 用 任何 存储 引擎 ， 因 此 和 Memory 表 不 是 一 回 事 。 临 时 表 只 在 
单个 连接 中 可 见 ， 当 连接 断 开 时 ， 临 时 表 也 将 不 复 存 在 。 


Merge5 |= 


Merge 引擎 是 MyISAM 引擎 的 一 个 变种 。 Merge 表 是 由 多 个 
MyISAM 表 合并 而 来 的 虚拟 表 。 如 果 将 MySQL 用 于 日 志 或 者 数据 仓库 
类 应 用 ， 该 引擎 可 以 发 挥 作用 。 但 是 引入 分 区 功能 后 ， 该 引擎 已 经 被 
放弃 (参考 第 7 章 ) o 


NDB 集 群 引擎 


2003 年 ， 当 时 的 MySQL AB 公 司 从 索尼 爱立信 公司 收购 了 NDB 数 
据 库 ， 然 后 开发 了 NDB 集 群 存储 引擎 ， 作 为 SQL 和 NDB 原 生 协 议 之 间 
的 接口 。MySQL 服 务 器 、NDB 集 群 存储 引擎 ， 以 及 分 布 式 的 、share- 
nothing 的 、 容 灾 的 、 高 可 用 的 NDB 数 据 库 的 组 合 ， 被 称 为 MySQL 和 集群 

(MySQL Cluster) 。 本 书后 续 会 有 章节 专门 来 讨论 MySQL 集 群 。 


15.4 ”第 三 方 存储 引擎 


MySQL 从 2007 年 开始 提供 了 插件 陈 的 存储 5 引擎 API， 从 此 痛 出 了 
一 系列 为 不 同 目的 而 设计 的 存储 引擎 。 其 中 有 一 些 已 经 合并 到 MySQL 
服务 器 ， 但 大 多 数 还 是 第 三 方 产品 或 者 开源 项 目 。 下 面 探 讨 一 些 我 们 
认为 在 它 设计 的 场景 中 确实 很 有 用 的 第 三 方 存储 引擎。 


OLTP 类 引擎 


Percona 的 XtraDB 存 储 引 擎 是 基于 InnoDB3 引 | 擎 的 一 个 改进 版 本 ， 
已 经 包含 在 Percona Server 和 MariaDB 中 ， 它 的 改进 点 主要 集中 在 性 
能 、 可 测量 性 和 操作 灵活 性 方面 。XtraDB 可 以 作为 mnoDB 的 一 个 完 
的 替代 产品 ， 甚 至 可 以 兼容 地 读 写 InnoDB 的 数据 文件 ， 并 支持 InnoDB 
的 所 有 查询 。 


另外 还 有 一 些 和 InnoDB 非 常 类 似 的 OLTP 类 存储 引擎 ， 比 如 都 支 
持 ACID 事 务 和 MVCC。 其 中 一 个 就 是 PBXT， 由 Paul McCullagh 和 
Primebase GMBH 开 发 。 它 支持 引擎 级 别 的 复制 、 外 键 约束 ， 并 且 以 一 
种 比较 复杂 的 架构 对 固态 存储 (SSD) 提供 了 适当 的 支持 ， 还 对 较 大 
的 值 类 型 如 BLOB 也 做 了 优化 。PBXT 是 一 款 社区 支持 的 存储 引擎 ， 
MariaDB 包 含 了 该 引擎 。 


TokuDB 引 擎 使 用 了 一 种 新 的 叫做 分 形 树 (Fractal Trees) 的 索引 
数据 结构 。 该 结构 是 缓存 无 天 的 ， 因 此 即使 其 大 小 超过 内 存 性 能 也 不 
会 下 降 ， 也 就 没有 内 存 生命 周期 和 碎片 的 问题 。TokuDB 是 一 种 大 数据 

(Big Data) 存储 引擎 ， 因 为 其 拥有 很 高 的 压缩 比 ， 可 以 在 很 大 的 数 
据 量 上 创建 大 量 索 引 。 在 本 书写 作 时 ， 这 个 引擎 还 处 于 早期 的 生产 版 
本 状态 ， 在 并 发 性 方面 还 有 很 多 明显 的 限制 。 目 前 其 最 适合 在 需要 大 


量 插入 数据 的 分 析 型 数据 集 的 场景 中 使 用 ， 不 过 这 些 限 制 可 能 在 后 续 
版 本 中 解决 挥 。 


RethinkDB 最 初 是 为 固态 存储 (SSD) 而 设计 的 ， 然 而 随 着 时 间 的 
推移 ， 目 前 看 起 来 和 最 初 的 目标 有 一 定 的 差距 。 该 引擎 比较 特别 的 地 
方 在 于 采用 了 一 种 只 能 追加 的 写 时 复制 B 树 (append-only copyon-write 
B-Tree) 作为 索引 的 数据 结构 。 目 前 还 处 于 早期 开发 状态 ， 我 们 还 没 
有 测试 评估 过 ， 也 没有 听 说 有 实际 的 应 用 案例 。 


在 Sun 收 购 MySQL AB 以 后 ，Falcon 存 储 引 警 曾 经 作为 下 一 代 存 储 
引擎 被 寄予 期 望 ， 但 现在 该 项 目 已 经 被 取消 很 久 了 。Falcon 的 主要 设 
计 者 Jim Starkey 创 立 了 一 家 新 公司 ， 主 要 做 可 以 支持 云 计 算 的 NewSQL 
数据 库 产品 ， 叫 做 NuoDB (之 前 叫 NimbusDB) o 


面向 列 的 存储 引擎 


MySQL 默 认 是 面向 行 的 ， 每 一 行 的 数据 是 一 起 存储 的 ， 服 务 器 的 
查询 也 是 以 行为 单位 处 理 的 。 而 在 大 数据 量 处 理 时 ， 面 向 列 的 方式 可 
能 效率 更 高 。 如 果 不 需 要 整 行 的 数据 ， 面 向 列 的 方式 可 以 传输 更 少 的 
数据 。 如 果 每 一 列 都 单独 存储 ， 那 么 压缩 的 效率 也 会 更 高 。 


Infobright 是 最 有 名 的 面向 列 的 存储 引擎 。 在 非常 大 的 数据 量 ( 数 
十 TB) 时 ， 该 引擎 工作 良好 。Infobright 是 为 数据 分 析 和 数据 仓库 应 用 
设计 的 。 数 据 高 度 压 缩 ， 按 照 块 进行 排序 ， 每 个 块 都 对 应 有 一 组 元 数 
据 。 在 处 理 查 询 时 ， 访 问 元 数据 可 决定 跳 过 该 块 ， 甚 至 可 能 只 需要 元 
数据 即 可 满足 查询 的 需求 。 但 该 引擎 不 支持 索引 ， 不 过 在 这 么 大 的 数 
据 量 级 ， 即 使 有 索引 也 很 难 发 挥 作用 ， 而 且 块 结构 也 是 一 种 准 索引 


(quasi-index) o Infobright 需 要 对 MySQL 服 务 器 做 定制 ， 因 为 一 些 地 

方 需要 修改 以 适应 面向 列 存储 的 需要 。 如 果 查 询 无 法 在 存储 层 使 用 面 
向 列 的 模式 执行 ， 则 需要 在 服务 器 层 转 换 成 按 行 处 理 ， 这 个 过 程 会 很 
慢 。Infobright 有 社区 版 和 商业 版 两 个 版 本 。 


另外 一 个 面向 列 的 存储 引擎 是 Calpont 公 司 的 InfiniDB， 也 有 社区 
版 和 商业 版 。InfiniDB 可 以 在 一 组 机 器 集群 间 做 分 布 式 查询 ， 但 目前 
还 没有 生产 环境 的 应 用 案例 。 


顺便 提 一 下 ， 在 MySQL 之 外 ， 如 果 有 面向 列 的 存储 的 需求 ， 我 们 
也 评估 过 LucidqDB 和 MonetDB。 在 我 们 的 MySQL 性 能 博客 中 上 有 相应 
的 性 能 测试 数据 ， 或 许 随 着 时 间 的 推 黎 ， 这 些 数 据 慢 慢 会 过 期 ,但 依 
然 可 以 作为 参考 。 


社区 存储 引擎 


如 果 要 列举 社区 提供 的 所 有 存储 引擎 ， 可 能 会 有 两 位 数 ， 甚 至 三 
位 数 。 但 是 负责 任 地 说 ， 其 中 大 部 分 影响 力 有 限 ， 很 多 可 能 都 没有 听 
说 过 ， 或 者 只 有 极 少 人 在 使 用 。 在 这 里 列举 了 一 些 ， 也 大 都 没有 在 生 
产 环 境 中 应 用 过 ， 慎 用 ， 后 果 自 负 。 


Aria 


之 前 的 名 字 是 Maria ， 是 MySQL 创建 者 计划 用 来 替代 
MyISAM 的 一 款 引 擎 。MariaDB 包 含 了 该 引擎 ， 之 前 计划 开发 的 
很 多 特性 ， 有 些 因 为 在 MariaDB 服 务 器 层 实现 ， 所 以 引擎 层 就 取 
消 了 。 在 本 书写 作 之 际 ， 可 以 说 Aria 就 是 解决 了 骨 溃 安全 恢复 问 


题 的 MyISAM， 当 然 也 还 有 一 些 特 性 是 MyISAM 不 具备 的 ， 比 如 
数据 的 缓存 (MyISAM 只 能 缓存 索引 ) o 


Groonga 


这 是 一 款 全 文 索引 5 引擎， 号 称 可 以 提供 准确 而 高 效 的 全 文 索 
引 。 


OQGraph 


该 引擎 由 Open Query 研 发 ， 支 持 图 操作 (比如 查找 两 点 之 间 
的 最 短路 径 ) ， 用 SQL 很 难 实现 该 类 操作 。 


C4M 


该 引擎 在 MySQL 内 部 实现 了 队列 操作 ， 而 用 SQL 很 难 在 一 个 
语句 实现 这 类 队列 操作 。 


SphinxSE 


该 引擎 为 Sphinx 全 文 索 引 搜 索 服 务 器 提供 了 SQL 接 口 ， 在 附 
录 F 中 将 做 进一步 的 详细 讨论 。 


Spider 


该 引擎 可 以 将 效 据 切 分 成 不 同 的 分 区 ， 比 较 高 效 透 明 地 实现 
SAHA (shard) ， 并 且 可 以 针对 分 片 执行 并 行 查询 (分 片 可 以 分 
布 在 不 同 的 服务 器 上 ) 。 


VPForMySQL 


该 引擎 支持 垂直 分 区 ， 通 过 一 系列 的 代理 存储 引擎 实现 。 垂 
直 分 区 指 的 是 可 以 将 表 分 成 不 同 列 的 组 合 ， 并 且 单 独 存储 。 但 对 
查询 来 说 ， 看 到 的 还 是 一 张 表 。 该 引擎 和 Spider 的 作者 是 同一 
人 。 


1.5.5 ”选择 合适 的 引擎 


这 么 多 存储 引擎 ， 我 们 怎么 选择 ? 大 部 分 情况 下 ，InnoDB 都 是 正 
确 的 选择 ， 所 以 Oracle 在 MySQL 5.5 版 本 时 终于 将 InnoDB 作 为 默认 的 
存储 引擎 了 。 对 于 如 何 选择 存储 引擎 ， 可 以 简单 地 归纳 为 一 句 话 :“ 除 
非 需要 用 到 某 些 mnnoDB 不 具备 的 特性 ， 并 且 没 有 其 他 办 法 可 以 替代 ， 
否则 都 应 该 优先 选择 ImnoDB 引 擎 ”。 人 例如， 如果 要 用 到 全 文 索引 ， 建 
议 优先 考虑 InnoDB 加 上 Sphinx 的 组 合 ， 而 不 是 使 用 支持 全 文 索引 的 
MyISAM。 当然， 如 果 不 需 要 用 到 InnoDB 的 特性 ， 同 时 其 他 引擎 的 特 
性 能 够 更 好 地 满足 需求 ， 也 可 以 考虑 一 下 其 他 存储 引擎 。 举 个 例子 ， 
如 果 不 在 平 可 扩展 能 力 和 并 发 能 力 ， 也 不 在 乎 骨 溃 后 的 数据 丢失 问 
题 ， 却 对 InnoDB 的 空间 占用 过 多 比较 敏感 ， 这 种 场合 下 选择 MyISAM 
就 比较 合适 。 


除非 万 不 得 已 ， 否 则 建议 不 要 混合 使 用 多 种 存储 引擎 ， 否 则 可 能 
市 来 一 系列 复杂 的 问题 ， 以 及 一 些 次 在 的 bug 和 边界 问题 。 存 储 引 擎 层 
和 服务 器 层 的 交互 已 经 比较 复杂 ， 更 不 用 说 混合 多 个 存储 引擎 了 。 至 
少 ， 瘟 合 存 储 对 一 致 性 备份 和 服务 器 参数 配置 都 市 来 了 一 些 困难 。 


如 果 应 用 需要 不 同 的 存储 引擎 ， 请 先 考虑 以 下 几 个 因素 。 


事务 


如 果 应 用 需要 事务 支持 ， 那 么 mnoDB (或 者 XtraDB) 是 目前 
最 稳定 并 且 经 过 验证 的 选择 。 如 果 不 需要 事务 ， 并 且 主 要 是 
SELECT 和 INSERT 操 作 ， 那 么 MyISAM 是 不 错 的 选择 。 一 般 日 志 
型 的 应 用 比较 符合 这 一 特性 。 


备份 


备份 的 需求 也 会 影响 存储 引擎 的 选择 。 如 果 可 以 定期 地 关闭 
服务 器 来 执行 备份 ， 那 么 备份 的 因素 可 以 忽略 。 反 之 ， 如 果 需 要 
在 线 热 备份 ， 那 么 选择 InnoDB 就 是 基本 的 要 求 。 


AAS 


效 据 量 比较 大 的 时 候 ， 系 统 朋 总 后 如 何 快 速 地 恢复 是 一 个 需 
要 考虑 的 问题 。 相 对 而 言 ，MyISAM 骨 溃 后 发 生 损 坏 的 概率 比 
InnoDB 要 高 很 多 ， 而 且 恢 复 速 度 也 要 慢 。 因 此 ， 即 使 不 需要 事务 
支持 ， 很 多 人 也 选择 InnoDB 引 擎 ， 这 是 一 个 非常 重要 的 因素 。 


特有 的 特性 


最 后 ， 有 些 应 用 可 能 依赖 一 些 存储 引擎 所 独 有 的 特性 或 者 优 
化 ， 比 如 很 多 应 用 依赖 聚 族 索引 的 优化 。 另 外 ，MySQL 中 也 只 
MyISAM 支 持 地 理 空间 搜索 。 如 果 一 个 存储 引擎 拥有 一 些 天 键 的 
特性 ， 同 时 却 又 缺乏 一 些 必 要 的 特性 ， 那 么 有 时 候 不 得 不 做 折 中 
的 考虑 ， 或 者 在 架构 设计 上 做 一 些 取舍 。 某 些 存储 引擎 无 法 直接 
支持 的 特性 ， 有 了 时候 通 过 变通 也 可 以 满足 需求 。 


你 不 需要 现在 就 做 决定 。 本 书 接 下 来 会 提供 很 多 关于 各 种 存储 引 
和 擎 优 缺 点 的 详细 描述 ， 也 会 讨论 一 些 架 构 设 计 的 技巧 。 一 般 来 说 ， 可 


有 很 多 选项 你 还 没有 意识 到 ， 等 阅读 完 本 书 回头 再 来 看 这 个 问题 可 
更 有 帮助 些 。 如 果 无 法 确定 ， 那 么 就 使 用 mnoDB， 这 个 默认 选项 是 
安全 的 ， 尤 其 是 搞 不 清楚 具体 需要 什么 的 时 候 。 


如 果 不 了 解 具 体 的 应 用 ， 上 面 提 到 的 这 些 概念 都 是 比较 抽象 的 。 
所 以 接 下 来 会 讨论 一 些 常见 的 应 用 场景 ， 在 这 些 场景 中 会 涉及 很 多 的 


表 ， 以 及 这 些 表 如 何 选 用 合适 的 存储 引擎 ， 下 一 节 将 进行 一 些 总 结 。 
日 志 型 应 用 


假设 你 需要 实时 地 记录 一 台中 心 电 话 交换 机 的 每 一 通电 话 的 日 志 
到 MySQL 中 ， 或 者 通过 Apache 的 mod_log_sql! 模 块 将 网 站 的 所 有 访问 信 
息 直 接 记录 到 表 中 。 这 一 类 应 用 的 插入 速度 有 很 高 的 要 求 ， 数 据 库 不 
能 成 为 瓶颈 。MyISAM 或 者 Archive 存 储 引 党 对 这 类 应 用 比较 合适 ， 
为 它们 开销 低 ， 而 且 插 入 速度 非常 快 。 


如 果 需 要 对 记录 的 日 志 做 分 析 报 表 ， 则 事情 就 会 变 得 有 趣 了 。 生 
成 报表 的 SQL 很 有 可 能 会 导致 插入 效率 明显 降低 ， 这 时 候 该 怎么 办 ? 


一 种 解决 方法 ， 是 利用 MySQL 内 置 的 复制 方案 将 数据 复制 一 份 到 
备 库 ， 然 后 在 备 库 上 执行 比较 消耗 时 间 和 CPU 的 查询 。 这 样 主 库 只 
于 高 效 的 插入 工作 ， 而 备 库 上 执行 的 查询 也 无 须 担 心 影响 到 日 志 的 插 
入 性 能 。 当 然 也 可 以 在 系统 负载 较 低 的 时 候 执行 报表 查询 操作 ， 但 应 
用 在 不 断 变 化 ， 如 果 依赖 这 个 策略 可 能 以 后 会 导致 问题 。 


另外 一 种 方法 ， 在 日 志 记 录 表 的 名 字 中 包含 年 和 月 的 信息 ， 比 如 
web_logs_2012_01 或 者 web_logs_2012_jan。 这 样 可 以 在 已 经 没有 插入 


操作 的 历史 表 上 做 频繁 的 查询 操作 ， 而 不 会 干扰 到 最 新 的 当前 表 上 的 
插入 操作 。 


只 读 或 者 大 部 分 情况 下 只 读 的 表 


有 些 表 的 数据 用 于 编制 类 目 或 者 分 列 清单 《如 工作 岗位 、 竞 担 、 
不 动产 等 ) ， 这 种 应 用 场景 是 典型 的 读 多 写 少 的 业务 。 如 果 不 介意 
MyISAM 的 骨 溃 恢复 问题 ， 选 用 MyISAM 引 擎 是 合适 的 。 不 过 不 要 低 
估 朋 演 恢 复 问 题 的 重要 性 ， 有 些 存储 引擎 不 会 保证 将 数据 安全 地 写 入 
到 磁盘 中 ， 而 许多 用 户 实际 上 并 不 清楚 这 样 有 多 大 的 风险 (MyISAM 
只 将 数据 写 到 内 存 中 ， 然 后 等 待 操作 系统 定期 将 数据 刷 出 到 磁盘 
se) 44 


Fa 


E 一 个 值得 推荐 的 方式 ， 是 在 性 能 测试 环境 模拟 真实 的 环境 ， 运 行 应 用 ， 然 后 拔 下 


电源 模拟 骨 溃 测试 。 对 骨 溃 恢复 的 第 一 手 测试 经 验 是 无 价 之 宝 ， 可 以 避免 真 的 磁 到 骨 溃 时 手 
足 无 措 。 


不 要 轻易 相信 “MyISAM 比 InnoDB 快 ”之 类 的 经 验 之 谈 ， 这 个 结论 
往往 不 是 绝对 的 。 在 很 多 我 们 已 知 的 场景 中 ，InnoDB 的 速度 都 可 以 让 
MyISAM 望 尘 莫 及 ， 尤 其 是 使 用 到 聚 得 索引 ， 或 者 需要 访问 的 数据 都 
可 以 放 入 内 存 的 应 用 。 在 本 书后 续 章 节 ， 读 者 可 以 了 解 更 多 影响 存储 
引擎 性 能 的 因素 〈 如 数据 大 小 、IO 请 求 量 、 主 键 还 是 二 级 索引 等 ) 以 
及 这 些 因素 对 应 用 的 影响 。 


当 设 计 上 述 类 型 的 应 用 时 ， 建 议 采 用 InnoDB。MyISAM35| 擎 在 一 
开始 可 能 没有 任何 问题 ， 但 随 着 应 用 压力 的 上 升 ， 则 可 能 迅速 恶化 。 
各 种 锁 争 用 、 有 骨 溃 后 的 数据 丢失 等 问题 都 会 随 之 而 来 。 


订单 处 理 


如 果 涉 及 订单 处 理 ， 那 么 支持 事务 就 是 必要 选项 。 半 完成 的 订单 
是 无 法 用 来 吸引 用 户 的 。 另 外 一 个 重要 的 考虑 点 是 存储 引擎 对 外 键 的 
支持 情况 。InnoDB 是 订单 处 理 类 应 用 的 最 佳 选择 。 


电子 公告 牌 和 主题 讨论 论坛 


对 于 MYSQL 用 户 ， 主 题 讨论 区 是 个 很 有 意思 的 话题 。 当 前 有 成 百 
上 千 的 基于 PHP 或 者 Perl 的 免费 系统 可 以 支持 主题 讨论 。 其 中 大 部 分 的 
数据 库 操作 效率 都 不 高 ， 因 为 它们 大 多 倾向 于 在 一 次 请 求 中 执行 尽 可 
能 多 的 查询 语句 。 另 外 还 有 部 分 系统 设计 为 不 采用 数据 库 ， 当 然 也 就 
无 法 利用 到 数据 库 提供 的 一 些 方便 的 特性 。 主 题 讨论 区 一 般 都 有 更 新 
计数 器 ， 并 且 会 为 各 个 主题 计算 访问 统计 信息 。 多 数 应 用 只 设计 了 几 
张 表 来 保存 所 有 的 数据 ， 所 以 核心 表 的 读 写 压 力 可 能 非常 大 。 为 保证 
这 些 核心 表 的 数据 一 致 性 ， 锁 成 为 资源 争 用 的 主要 因素 。 


尽管 有 这 些 设 计 缺 陷 ， 但 大 多 数 应 用 在 中 低 负载 时 可 以 工作 得 很 
好 。 如 果 Web 站 点 的 规模 迅速 扩展 ， 流 量 随 之 猛 增 ， 则 数据 库 访 问 可 
能 变 得 非常 慢 。 此 时 一 个 典型 的 解决 方案 是 更 改 为 支持 更 高 读 写 的 存 
储 引 擎 ， 但 有 时 用 户 会 发 现 这 么 做 反而 导致 系统 变 得 更 慢 了 。 用 户 可 
能 没有 意识 到 这 是 由 于 某 些 特殊 查询 的 缘故 ， 典 型 的 如 : 


mysql> SELECT COUNT (*) FROM table; 


问题 就 在 于 ， 不 是 所 有 的 存储 引擎 运行 上 述 查询 都 非常 快 : 对 于 
MyISAM 确 实 会 很 快 ， 但 其 他 的 可 能 都 不 行 。 每 种 存储 引擎 都 能 找 出 
类 似 的 对 自己 有 利 的 例子 。 下 一 章 将 帮助 用 户 分 析 这 些 状况 ， 演 示 如 
何 发 现 和 解决 存在 的 这 类 问题 。 


CD-ROM 应 用 


如 果 要 发 布 一 个 基于 CD-ROM 或 者 DVD-ROM 并 且 使 用 MySQL 数 
据 文件 的 应 用 ， 可 以 考虑 使 用 MyISAM 表 或 者 MyISAM 压 缩 表 ， 这 样 
表 之 间 可 以 隔离 并 且 可 以 在 不 同 介质 上 相互 拷贝 。MyISAM 压 缩 表 比 
未 压缩 的 表 要 节约 很 多 空间 ， 但 压缩 表 是 只 读 的 。 在 某 些 应 用 中 这 可 
能 是 个 大 问题 。 但 如 果 数 据 放 到 只 读 介质 的 场景 下 ， 压 缩 表 的 只 读 特 
性 就 不 是 问题 ， 就 没有 理由 不 采用 压缩 表 了 。 


大 数据 量 


什么 样 的 数据 量 算 大 ? 我 们 创建 或 者 管理 的 很 多 InnoDB 数 据 库 的 
数据 量 在 3~5TB 之 间 ， 或 者 更 大 ， 这 是 单 台 机 器 上 的 量 ， 不 是 一 个 分 
片 (shard) 的 量 。 这 些 系统 运行 得 还 不 错 ， 要 做 到 这 一 点 需要 合理 地 
选择 硬件 ， 做 好 物理 设计 ， 并 为 服务 器 的 1/O 瓶 有 颈 做 好 规划 。 在 这 样 的 
数据 量 下 ， 如 果 采 用 MyISAM， 骨 溃 后 的 恢复 就 是 一 个 垩 梦 。 


如 果 数 据 量 继续 增长 到 10TB 以 上 的 级 别 ， 可 能 就 需要 建立 数据 仓 
库 。Infobright 是 MySQL 数 据 仓 库 最 成 功 的 解决 方案 。 也 有 一 些 大 数据 
库 不 适合 Infobright， 却 可 能 适合 TokuDB。 


1.5.6 ”转换 表 的 引擎 


有 很 多 种 方法 可 以 将 表 的 存储 引擎 转 换 成 男 外 一 种 引擎 。 每 种 方 
法 都 有 其 优点 和 缺点 。 在 接 下 来 的 章节 中 ， 我 们 将 讲述 其 中 的 三 种 方 
法 。 


ALTER TABLE 


将 表 从 一 个 引擎 修改 为 另 一 个 引擎 最 简单 的 办 法 是 使 用 ALTER 
TABLE 语 句 。 下 面 的 语句 将 mytable 的 引擎 修改 为 InnoDB: 


mysql> ALTER TABLE mytable ENGINE=InnoDB; 


上 述 语 法 可 以 适用 任何 存储 引擎 。 但 有 一 个 问题 : 需要 执行 很 长 
时 间 。MySQL 会 按 行 将 数据 从 原 表 复制 到 一 张 新 的 表 中 ， 在 复制 期 间 
可 能 会 消耗 系统 所 有 的 IO 能 力 ， 同 时 原 表 上 会 加 上 读 锁 。 所 以 ， 在 繁 
忙 的 表 上 执行 此 操作 要 特别 小 心 。 一 个 蔡 代 方案 是 采用 接 下 来 将 讨论 
的 导出 与 导入 的 方法 ， 手 工 进行 表 的 复制 。 


如 果 转 换 表 的 存储 引擎 ， 将 会 失去 和 原 引 擎 相关 的 所 有 特性 。 例 
如 ， 如 果 将 一 张 InnoDB 表 转换 为 MyISAM， 然 后 再 转换 回 InnoDB， 原 
InnoDB 表 上 所 有 的 外 键 将 丢失 。 


导出 与 导入 


为 了 更 好 地 控制 转换 的 过 程 ， 可 以 使 用 mysqldump 工 具 将 数据 导 
出 到 文件 ， 然 后 修改 文件 中 CREATE TABLE 语 句 的 存储 引擎 选 项 ， 注 
意 同时 修改 表 名 ， 因 为 同一 个 数据 库 中 不 能 存在 相同 的 表 名 ， 即 使 它 
们 使 用 的 是 不 同 的 存储 引擎 。 同 时 要 注意 mysqldump 默 认 会 自动 在 
CREATE TABLE 语 句 前 加 上 DROP TABLE 语 句 ， 不 注意 这 一 点 可 能 会 
导致 数据 丢失 。 


创建 与 查询 (CREATE 和 SELECT) 


第 三 种 转换 的 技术 综合 了 第 一 种 方法 的 高 效 和 第 二 种 方法 的 安 
人 全。 不 需要 导出 整个 表 的 数据 ， 而 是 先 创建 一 个 新 的 存储 引擎 的 表 ， 
然后 利用 INSERT...SELECT 语 法 来 导数 据 : 


mysql> CREATE TABLE innodb_table LIKE myisam_table; 
mysql> ALTER TABLE innodb_table ENGINE=InnoDB; 


mysql> INSERT INTO innodb_table SELECT * FROM myisam_table; 


数据 量 不 大 的 话 ， 这 样 做 工作 得 很 好 。 如 果 数 据 量 很 大 ， 则 可 以 
考虑 做 分 批 处 理 ， 针 对 每 一 段 数据 执行 事务 提交 操作 ， 以 避免 大 事务 
产生 过 多 的 undo。 假 设 有 主键 字段 ia， 重复 运行 以 下 语句 (最 小 值 x 和 
最 大 值 y 进 行 相应 的 替换 ) 将 数据 导入 到 新 表 : 


mysql> START TRANSACTION; 


mysql> INSERT INTO innodb_table SELECT * FROM myisam_table 


-> WHERE id BETWEEN x AND y; 


mysql> COMMIT; 


这 样 操 作 完成 以 后 ， 新 表 是 原 表 的 一 个 全 量 复 制 ， 原 表 还 在 ， 如 
果 需 要 可 以 删除 原 表 。 如 果 有 必要 ， 可 以 在 执行 的 过 程 中 对 原 表 加 
锁 ， 以 确保 新 表 和 原 表 的 数据 一 致 。 


Percona Toolkit 提 供 了 一 个 pt-online-schema-change 的 工具 (基于 
Facebook 的 在 线 schema 变 更 技术 ) ， 可 以 比较 简单 、 方 便 地 执行 上 述 
过 程 ， 避 免 手 工 操 作 可 能 导致 的 失误 和 烦琐 。 


1.6 MySQL 时 间 线 (Timeline) 


在 选择 MySQL 版 本 的 时 候 ， 了 解 一 下 版 本 的 变迁 历史 是 有 帮助 
的 。 对 于 怀旧 者 也 可 以 享受 一 下 过 去 的 好 日 子 里 是 怎么 使 用 MySQL 
的 。 


版 本 3.23 (2001) 


一 般 认 为 这 个 版 本 的 发 布 是 MySQL 真 正 * 诞 生 ” 的 时 刻 ， 其 开 
始 获得 广泛 使 用 。 在 这 个 版 本 ，MySQL 依 然 只 是 一 个 在 平面 文件 
(Flat File) 上 实现 了 SQL 查询 的 系统 。 但 一 个 重要 的 改进 是 引入 
MyISAM 代 替 了 老 旧 而 且 有 诸多 限制 的 ISAM5 引 擎 。InnoDB 引 擎 
也 已 经 可 以 使 用 ， 但 没有 包含 在 默认 的 二 进 制 发 行 版 中 ， 因 为 它 
太 新 了 。 所 以 如 果 要 使 用 mnoDB， 必 须 手 工 编译 。 版 本 3.23 还 引 
入 了 全 文 索引 和 复制 。 复 制 是 MySQL 成 为 互联 网 应 用 的 数据 库 系 
统 的 关键 特性 (killer feature) 。 


版 本 4.0 (2003) 


支持 新 的 语法 ， 比 如 UNION 和 多 表 DELETE 语 法 。 重 写 了 复 
制 ， 在 备 库 使 用 了 两 个 线程 来 实现 复制 ， 避 免 了 之 前 一 个 线程 做 
所 有 复制 工作 的 模式 下 任务 切换 导致 的 问题 。InnoDB 成 为 标准 配 
备 ， 包 括 了 全 部 的 特性 : 行 级 锁 、 外 键 等 。 版 本 4.0 中 还 引入 了 查 
询 缓存 〈 自 那 以 后 这 部 分 改动 不 大 ) ， 同 时 还 支持 通过 SSL 进行 
连接 。 


版 本 4.1 (2005) 


引入 了 更 多 新 的 语法 ， 比 如 子 查 询 和 和 INSERT ON 
DUPLICATE KEY UPDATE。 开 始 支持 UTF-8 字 符 集 。 支 持 新 的 
二 进 制 协议 和 prepared 语 句 。 


版 本 5.0 (2006) 


这 个 版 本 出 现 了 一 些 “ 企 业 级 ”特性 : 视图 、 触 发 器 、 存 储 过 
程 和 存储 为 数 。 老 的 ISAM5 引 警 的 代码 被 彻底 移 除 ， 同 时 5 引入 了 新 
的 Federated 等 引擎 。 


版 本 5.1 (2008) 


这 是 Sun 收 购 MySQL AB 以 后 发 布 的 首 个 版 本 ， 研 发 时 间 长 达 
五 年 。 版 本 5.1 引 入 了 分 区 、 基 于 行 的 复制 ， 以 及 plugin API ( 包 
括 可 插 拔 存储 引擎 的 API) 。 移 除了 BerkeyDB5 引 擎 ， 这 是 MySQL 
最 早 的 事务 存储 引擎 。 其 他 如 Federated 引 擎 也 将 被 放弃 。 同 时 
Oracle 收 购 的 mnoDB Oy) 44h TF InnoDB plugino 


版 本 5.5 (2010) 


这 是 Oracle 收 购 Sun 以 后 发 布 的 首 个 版 本 。 版 本 5.5 的 主要 改善 
集中 在 性 能 、 扩 展 性 、 复 制 、 分 区 、 对 微软 Windows 系 统 的 支 
持 ， 以 及 一 些 其 他 方面 。InnoDB 成 为 默认 的 存储 引擎 。 更 多 的 一 
些 遗 留 特性 和 不 建议 使 用 的 特性 被 移 除 。 增 加 了 
PERFORMANCE_SCHEMA 库 ， 包 含 了 一 些 可 测量 的 性 能 指标 的 
增强 。 增 加 了 复制 、 认 证 和 审计 API。 半 同步 复制 

(semisynchronous replication) 插件 进入 实用 阶段 。Oracle 还 在 
2011 年 发 布 了 商用 的 认证 插件 和 线程 池 (thread pooling) o 
InnoDB 在 架构 方面 也 做 了 较 大 的 改进 ， 比 如 多 个 子 缓冲 池 

(buffer pool) o 


版 本 5.6 (还 未 发 布 ) 


版 本 5.6 将 包含 一 些 重大 更 新 。 比 如 多 年 来 首次 对 查询 优化 器 
进行 大 规模 的 改进 ， 更 多 的 插件 API (比如 全 文 索 引 ) ， 复 制 的 
改进 ， 以 及 PERFORMANCE_SCHEMA 库 增加 了 更 多 的 性 能 指 
标 。InnoDB 团 队 也 做 了 大 量 的 改进 工作 ， 这 些 改进 在 已 经 发 布 的 
里 程 碑 版 本 和 实验 室 版 本 中 都 已 经 包括 。MySQL 5.5 主 要 着 重 在 
基础 部 分 的 改进 和 加 强 ， 引 入 了 部 分 新 特性 。 而 MySQL 5.6 则 在 
MySQL 5.5 的 基础 上 提升 服务 器 的 开发 和 性 能 。 


版 本 6.0 (已 经 取消 ) 


版 本 6.0 的 概念 有 些 模糊 。 最 早 在 版 本 5.1 还 在 开发 的 时 候 就 宣 
布 要 开发 版 本 6.0。 传 说 中 宣布 要 开发 的 6.0 拥 有 大 量 的 新 特性 ， 包 
括 在 线 备份 、 服 务 器 层面 对 所 有 存储 引擎 的 外 键 支持 ， 以 及 子 查 


询 的 改进 和 线程 池 。 后 来 该 版 本 号 被 取消 ，Sun 将 其 改 为 版 本 5.4 
继续 开发 ， 最 后 发 布 时 变 成 版 本 5.5。 版 本 6.0 中 很 多 特性 的 代码 陆 
续 出 现在 版 本 5.5 和 5.6 中 。 


简单 总 结 一 下 MySQL 的 发 展 史 : 早期 的 MySQL 是 一 种 破坏 性 创 
新 中， 有 诸多 限制 ， 并 且 很 多 功能 只 能 说 是 二 流 的 。 但 是 它 的 特性 支 
持 和 较 低 的 使 用 成 本 ， 使 得 其 成 为 快速 增长 的 互联 网 时 代 的 杀手 级 应 
用 。 在 5.x 版 本 的 早期 ，MySQL5 引 入 了 视图 和 存储 过 程 等 特性 ， 期 望 成 
为 “企业 级 ”数据 库 ， 但 并 不 算 成 功 ， 成 长 并 非 一 帆 风 顺 。 从 事后 分 析 
来 看 ，MySQL 5.0 充 满 了 bug， 直 到 5.0.50 以 后 的 版 本 才 算 稳定 。 这 种 
情况 在 MySQL 5.1 也 依然 没有 太 多 改善 。 版 本 5.0 和 5.1 的 发 布 都 延期 了 
许多 时 日 ， 而 且 Sun 和 Oracle 的 两 次 收购 也 使 得 社区 人 士 有 所 担心 。 但 
我 们 认为 事情 还 在 按部就班 地 发 展 ，MySQL 5.5 可 以 说 是 MySQL 历 史 
上 质量 最 高 的 版 本 。Oracle 收 购 以 后 帮助 MySQL 更 好 地 往 企 业 级 应 用 
的 方向 发 展 ，MySQL 5.6 也 承诺 在 功能 和 性 能 方面 将 有 显著 提升 。 


是 到 性 能 ， 我 们 可 以 比较 一 下 在 不 同时 代 MySQL 的 性 能 测试 的 数 
据 。 在 目前 的 生产 环境 中 4.0 及 更 老 的 版 本 已 经 很 少见 了 ， 所 以 这 里 不 
打算 测试 4.1 之 前 的 版 本 。 另 外 ， 如 此 多 的 版 本 如 果 要 做 完全 等 同 的 测 
试 是 比较 困难 的 ， 具 体 原因 将 在 后 面 的 章节 讨论 。 我 们 尝试 设计 了 多 
个 测试 方案 来 尽量 保证 在 不 同 版 本 中 的 基准 一 致 ， 并 为 此 做 了 很 多 努 
力 。 表 1-2 显 示 了 在 服务 器 层面 不 同 并 发 下 的 每 秒 事务 数 的 测试 结果 。 


表 1-2: 多 个 不 同 MySQL 版 本 的 只 读 测试 


线程 数 MySQL MySQL MySQL MysQL5.1with MySQL MySQL 


4.1 50 3), 1 InnoDB plugin S35 5.6° 
1 686 640 596 594 531 526 
2 1307 T221 1140 1139 1077 1019 
4 2275 2168 2032 2043 1938 1831 
8 3879 3746 3606 3681 3523 3320 
16 4374 4527 4393 6131 5881 5573 
32 4591 4864 4698 7762 7549 7139 
64 4688 5078 4910 7536 7269 6994 


注 a: 在 测试 的 时 候 ， 版 本 5.6 还 没有 GA (正式 发 布 ) 。 


很 容易 将 表 1-2 的 数据 以 图 的 方式 展示 出 来 ， 如 图 1-2 所 示 。 
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图 1-2: MySQL 不 同 版 本 的 只 读 基准 测试 


在 解释 结果 之 前 ， 需 要 先 介绍 一 下 测试 环境 。 测 试 的 机 器 是 Cisco 
UCS C250， 两 颗 6 核 CPU， 每 个 核 支 持 两 个 线程 ， 内 存 为 384GB， 测 
试 的 数据 集 是 2.5GB ， 所 以 MySQL 的 buffer pool 设 置 为 4GB。 采 用 
SysBench 的 read-only 只 读 测试 进行 压 测 ， 并 采用 InnoDB 和 存储 引 擎 ， 所 
有 的 数据 都 可 以 放 入 内 存 ， 因 此 是 CPU 密 集 型 (CPU-bound) 的 测 


试 。 每 次 测试 持续 60 分 钟 ， 每 10 秒 获取 一 次 吞吐 量 的 结果 ， 前 面 900 秘 


现在 来 看 看 结果 ， 有 两 个 很 明显 的 趋势 。 第 一 个 趋势 ， 采 用 了 
InnoDB plugin 的 版 本 ， 在 高 并 发 的 时 候 性 能 明显 更 好 ， 可 以 说 InnoDB 
plugin 的 扩展 性 更 好 。 这 是 可 以 预期 的 结果 ， 旧 的 版 本 在 高 并 发 时 确 
实 存在 问题 。 第 二 个 趋势 ， 新 的 版 本 在 单线 程 的 时 候 性 能 比 旧 版 本 更 
差 。 一 开始 可 能 无 法 理解 为 什么 会 这 样 ， 仔 细 想 想 就 能 明日 ， 这 是 一 
个 非常 简单 的 只 读 测 试 。 新 版 本 的 SQL 语 法 更 复杂 ， 针 对 复杂 查询 增 
加 了 很 多 特性 和 改进 ， 这 对 于 简单 查询 可 能 市 来 了 更 多 的 开销 。 旧 版 
本 的 代码 简单 ， 对 于 简单 的 查询 反而 会 更 有 利 。 


原 计划 做 一 个 更 复杂 的 不 同 并 发 条 件 下 的 恋 与 混合 场景 的 测试 
(类 似 TPC-C) ， 但 要 在 不 同 版 本 间 做 到 可 比较 基本 是 不 可 能 的 。 一 
般 来 说 ， 新 版 本 在 复杂 场景 时 性 能 有 更 多 的 优化 ， 尤 其 是 高 并 发 和 大 
数据 集 的 情况 下 。 


那么 该 如 何 选择 版 本 呢 ? 这 更 多 地 取决 于 业务 需求 而 不 是 技术 需 
求 。 理 想 情 况 下 当然 是 版 本 越 新 越 好 ， 当 然 也 可 以 选择 等 到 第 一 个 bug 
修复 版 本 以 后 再 采用 新 的 大 版 本 。 如 果 应 用 还 没有 上 线 ， 也 可 以 采用 
即将 发 布 的 新 版 本 ， 以 尽 可 能 地 延迟 应 用 上 线 后 的 升级 操作 。 


1.7 MySQL 的 开发 模式 


MySQL 的 开发 过 程 和 发 布 模型 在 不 同 的 阶段 有 很 大 的 变化 ， 但 目 
前 已 经 基本 稳定 下 来 。 在 Oracle 定 期 发 布 的 新 里 程 碑 开发 版 本 中 ， 会 
包含 即将 在 下 一 个 GA 人 版 本 发 布 的 新 特性 。 这 样 做 是 为 了 测试 和 获得 


反馈 ， 请 不 要 在 生产 环境 使 用 此 版 本 ， 虽 然 Oracle 宣 称 每 个 里 程 碑 版 
本 的 质量 都 是 可 靠 的 ， 并 随时 可 以 正式 发 布 (到 目前 为 止 也 没有 任何 
理由 去 推翻 这 个 说 法 ) 。Oracle 也 会 定期 发 布 实验 室 预览 版 ， 主 要 包 
含 一 些 特定 的 需要 评估 的 特性 ， 这 些 特 性 并 不 保证 会 在 下 一 个 正式 版 
本 中 包括 进去 。 最 终 ，Oracle 会 将 稳定 的 特性 打包 发 布 一 个 新 的 GA 版 
本 。 


MySQL 依 然 遵 循 GPL 开 源 协 议 ， 全 部 的 源 代码 (除了 一 些 商 业 版 
本 的 插件 ) 都 会 开放 给 社区 。Oracle 似 乎 也 理解 ， 为 社区 和 付费 用 户 
提供 不 同 的 版 本 并 非 明智 之 举 。MySQL AB 曾 经 尝试 过 不 同 版 本 的 策 
略 ， 结 果 导 致 付 费用 户 变 成 了 “上 陷 眼 上 核 ”， 无 法 从 社区 的 测试 和 反馈 
获得 好 处 。 不 同 版 本 的 策略 并 不 受 企业 用 户 的 欢迎 ， 所 以 后 来 被 Sun 
废除 了 。 


现在 Oracle 为 付费 用 户 单独 提供 了 一 些 服务 器 插件 ， 而 MySQL 本 
身 还 是 遵循 开源 模式 。 尽 管 对 于 私有 的 服务 器 插件 的 发 布 有 一 些 抱 
忽 ， 但 这 只 是 少数 的 声音 ， 并 且慢 慢 地 在 平息 。 大 多 数 MySQL 用 户 对 
此 并 不 在 意 ， 有 需求 的 用 户 也 能 够 接受 商业 授权 的 付费 插件 。 


无 论 如 何 ， 不 开源 的 扩展 也 只 是 扩展 而 已 ， 并 不 会 将 MySQL 变 成 
受 限 制 的 非 开 源 模式 。 没 有 这 些 扩 展 ，MySQL 也 是 功能 完整 的 数据 
库 。 坦 白地 说 ， 我 们 也 很 欣赏 Oracle 将 更 多 的 特性 做 成 插件 的 开发 模 
式 。 如 果 将 特性 直接 包含 在 服务 器 中 而 不 是 API 的 方式 ， 那 就 更 加 没 
有 选择 了 : 用 户 只 能 接受 这 种 实现 ， 而 失去 了 选择 更 适合 业务 的 实现 
的 机 会 。 例 如 ， 如 果 Oracle 将 nnoDB 的 全 文 索引 功能 以 API 的 方式 实 
现 ， 那 么 就 可 能 以 同样 的 API 实 现 Sphinx 或 者 Lucene 的 插件 ， 这 可 能 对 
一 些 用 户 更 有 有 用。 服务 器 内 部 的 API 设 计 也 很 和 干净， 这 对 于 提升 代码 
质量 非常 有 帮助 ， 谁 不 想 要 这 个 呢 ? 


18 ”总 结 


MySQL 拥 有 分 层 的 架构 。 上 层 是 服务 器 层 的 服务 和 查询 执行 引 
擎 ， 下 层 则 是 存储 引擎 。 虽 然 有 很 多 不 同 作用 的 插件 API， 但 存储 引 
擎 API 还 是 最 重要 的 。 如 果 能 理解 MySQL 在 存储 引擎 和 服务 层 之 间 处 
理 查询 时 如 何 通 过 API 来 回 交 互 ， 就 能 抓 住 MySQL 的 核心 基础 架构 的 


MySQL 最 初 基于 ISAM 构 建 (后 来 被 MyISAM 取 代 ) ， 其 后 陆续 
添加 了 更 多 的 存储 引擎 和 事务 支持 。MySQL 有 一 些 怪异 的 行为 是 由 于 
历史 遗留 导致 的 。 例 如 ， 在 执行 ALTER TABLE 时 ，MySQL 提 交 事 务 
的 方式 是 由 于 存储 引擎 的 架构 直接 导致 的 ， 并 且 数 据 字 典 也 保存 
在 .frm 文 件 中 (这 并 不 是 说 InnoDB 会 导致 ALTER 变 成 非 事务 型 的 。 对 
于 InnoDB 来 说 ， 所 有 的 操作 都 是 事务 ) o 


当然 ， 存 储 引 擎 API 的 架构 也 有 一 些 缺 点 。 有 时 候选 择 多 并 非 好 
事 ， 而 在 MySQL 5.0 和 MySQL 5.1 中 有 太 多 的 存储 引擎 可 以 选择 。 
InnoDB 对 于 95% 以 上 的 用 户 来 说 都 是 最 佳 选择 ， 所 以 其 他 的 存储 引擎 
可 能 只 是 让 事情 变 得 复杂 难 搞 ， 当 然 也 不 可 否认 某 些 情况 下 某 些 存储 
引擎 能 更 好 地 满足 需求 。 


Oracle 一 开始 收购 了 InnoDB， 之 后 又 收购 了 MySQL ， 在 同一 个 屋 
檐 下 对 于 两 者 都 是 有 利 的 。InnoDB 和 MySQL 服 务 器 之 间 可 以 更 快 地 协 
同 发 展 。MySQL 依 然 基 于 GPL 协议 开放 全 部 源 代 码 ， 社 区 和 客户 都 可 
以 获得 坚固 而 稳定 的 数据 库 ，MySQL 正 在 变 得 越 来 越 可 扩展 和 有 用 。 


(1) InnoDB 是 一 个 例外 ， 它 会 解析 外 键 定 义 ， 因 为 MySQL 服 务 器 本 身 没有 实现 该 功能 。 


(2) MySQL 5.5 或 者 更 新 的 版 本 提供 了 一 个 API， 支 持 线 程 池 (Thread-Pooling) 插件 ， 可 
以 使 用 闻 中 少量 的 线程 来 服务 大 量 的 连接 。 


(3) 这 些 锁定 提示 经 常 被 滥用 ， 实 际 上 应 当 尽 量 避 免 使 用 。 第 6 章 有 更 详细 的 讨论 。 


(4) MVCC 并 没有 正式 的 规范 ， 所 以 各 个 存储 引擎 和 数据 库 系统 的 实现 都 是 各 异 的 ， 没 有 
人 能 说 其 他 的 实现 方式 是 错误 的 。 


(5) mysqlperformanceblog.como 


译 者 注 
(6) Oracle 也 已 经 收购 了 BerkeyDB。 
(7) “破坏 性 创新 ”一 词 出 自 Clayton M. Christensen 的 The Innovator's Dilemma (Harper) 。 


(8) GA (Generally Available) 的 意思 是 通常 可 用 的 版 本 ， 对 于 最 挑剔 的 老板 来 说 ， 这 种 
版 本 也 意味 着 达到 了 满足 生产 环境 中 使 用 的 质量 标准 。 


第 2 章 MySQL 基准 测试 


基准 测试 (benchmark) 是 MySQL 新 手 和 专家 都 需要 掌握 的 一 项 
基本 技能 。 简 单 地 说 ， 基 准 测 试 是 针对 系统 设计 的 一 种 压力 测试 。 通 
常 的 目标 是 为 了 掌握 系统 的 行为 。 但 也 有 其 他 原因 ， 如 重 现 某 个 系统 
状态 ， 或 者 是 做 新 硬件 的 可 靠 性 测试 。 本 章 将 讨论 MySQL 和 基于 
MySQL 的 应 用 的 基准 测试 的 重要 性 、 策 略 和 工具 。 我 们 将 特别 讨论 一 
下 sysbench， 这 是 一 款 非常 优秀 的 MySQL 基 准 测 试 工具 。 


21 为 什么 需要 基准 测试 


为 什么 基准 测试 很 重要 ? 因为 基准 测试 是 唯一 方便 有 效 的 、 可 以 
学 习 系 统 在 给 定 的 工作 负载 下 会 发 生 什么 的 方法 。 基 准 测试 可 以 观察 
系统 在 不 同 压 力 下 的 行为 ， 评 估 系 统 的 容量 ， 掌 握 哪 些 是 重要 的 变 
化 ， 或 者 观察 系统 如 何 处 理 不 同 的 数据 。 基 准 测试 可 以 在 系统 实际 负 
载 之 外 创造 一 些 虚构 场景 进行 测试 。 基 准 测试 可 以 完成 以 下 工作 ,或 
者 更 多 : 


。 验证 基于 系统 的 一 些 假设 ,确认 这 些 假设 是 否 符 合 实际 情况 。 

。 重 现 系统 中 的 某 些 异常 行为 ， 以 解决 这 些 异 常 

。 疯 试 系统 当前 的 运行 情况 。 如 果 不 清楚 系统 当前 的 性 能 ， 就 无 法 
确认 某 些 优化 的 效果 如 何 。 也 可 以 利用 历史 的 基准 测试 结果 来 分 
析 诊 断 一 些 无 法 预测 的 问题 。 

。 模 拟 比 当前 系统 更 高 的 负载 ， 以 找 出 系统 随 着 压力 增加 而 可 能 3 
到 的 扩展 性 瓶颈 。 


。 规划 未 来 的 业务 增长 。 基 准 测试 可 以 评估 在 项 目 未 来 的 负载 下 ， 
需要 什么 样 的 硬件 ， 需 要 多 大 容量 的 网 络 ， 以 及 其 他 相关 资源 。 
这 有 助 于 降低 系统 升级 和 重大 变更 的 风险 。 

测试 应 用 适应 可 变 环境 的 能 力 。 例 如 ， 通 过 基准 测试 ， 可 以 发 现 
系统 在 随机 的 并 发 峰值 下 的 性 能 表现 ， 或 者 是 不 同 配置 的 服务 器 
之 间 的 性 能 表现 。 基 准 测试 也 可 以 测试 系统 对 不 同 数据 分 布 的 处 
理 能 力 。 

测试 不 同 的 硬件 、 软 件 和 操作 系统 配置 。 比 如 RAID 5 还 是 RAID 
10 更 适合 当前 的 系统 ? 如 果 系 统 从 ATA 硬 盘 升 级 到 SAN 存 储 ， 对 
于 随机 写 性 能 有 什么 帮助 ? Linux 2.4 系 列 的 内 核 会 比 2.6 系 列 的 可 
扩展 性 更 好 吗 ? 升级 MySQL 的 版 本 能 改善 性 能 吗 ? 为 当前 的 数据 
采用 不 同 的 存储 引擎 会 有 什么 效果 ? 所 有 这 类 问题 都 可 以 通过 专 
门 的 基准 测试 来 获得 答案 。 

证 明 新 采购 的 设备 是 否 配置 正确 。 笔 者 曾经 无 数 次 地 通过 基准 测 
试 来 对 新 系统 进行 压 测 ， 发 现 了 很 多 错误 的 配置 ， 以 及 硬件 组 件 
的 失效 等 问题 。 因 此 在 新 系统 正式 上 线 到 生产 环境 之 前 进行 基准 
测试 是 一 个 好 习惯 ， 永 远 不 要 相信 主机 提供 商 或 者 硬件 供应 商 的 
所 谓 系统 已 经 安装 好 ， 并 且 能 运行 多 快 的 说 法 。 如 果 可 能 ， 执 行 
实际 的 基准 测试 永远 是 一 个 好 主意 。 


基准 测试 还 可 以 用 于 其 他 目的 ， 比 如 为 应 用 创建 单元 测试 套件 。 
但 本 章 我 们 只 关注 与 性 能 有 关 的 基准 测试 。 


基准 测试 的 一 个 主要 问题 在 于 其 不 是 真实 压力 的 测试 。 基 准 测试 
施加 给 系统 的 压力 相对 真实 压力 来 说 ， 通 常 比较 简单 。 真 实 压力 是 不 
可 预期 而 且 变 化 多 端的 ， 有 时 候 情况 会 过 于 复杂 而 难以 解释 。 所 以 使 
用 真实 压力 测试 ， 可 能 难以 从 结果 中 分 析出 确切 的 结论 。 


基准 测试 的 压力 和 真实 压力 在 哪些 方面 不 同 ? 有 很 多 因素 会 影响 
基准 测试 ， 比 如 数据 量 、 数 据 和 查询 的 分 布 ， 但 最 重要 的 一 点 还 是 基 
准 测试 通常 要 求 尽 可 能 快 地 执行 完成 ， 所 以 经 常 给 系统 造成 过 大 的 压 
力 。 在 很 多 案例 中 ， 我 们 都 会 调整 给 测试 工具 的 最 大 压力 ， 以 在 系统 
可 以 容忍 的 压力 阐 值 内 尽 可 能 快 地 执行 测试 ， 这 对 于 确定 系统 的 最 大 
容量 非常 有 帮助 。 然 而 大 部 分 压力 测试 工具 不 支持 对 压力 进行 复杂 的 
控制 。 务 必要 记 住 ， 测 试 工具 目 身 的 局 限 也 会 影响 到 结果 的 有 效 性 。 


使 用 基准 测试 进行 容量 规划 也 要 掌握 技巧 ， 不 能 只 根据 测试 结果 
做 简单 的 推 朵 。 例 如 ， 假 设想 知道 使 用 新 数据 库 服 务 器 后 ， 系 统 能 够 
支撑 多 大 的 业务 增长 。 首 先 对 原 系统 进行 基准 测试 ， 然 后 对 新 系统 做 
测试 ， 结 果 发 现 新 系统 可 以 支持 原 系统 40 倍 的 TPS 〈 每 秒 事务 数 ) ， 
这 时 候 就 不 能 简单 地 推断 说 新 系统 一 定 可 以 支持 40 倍 的 业务 增长 。 这 
是 因为 在 业务 增长 的 同时 ， 系 统 的 流量 、 用 户 、 数 据 以 及 不 同 数据 之 
间 的 交互 都 在 增长 ， 它 们 不 可 能 都 有 40 倍 的 支撑 能 力 ， 尤 其 是 相互 之 
间 的 关系 。 而 且 当 业务 增长 到 40 倍 时 ， 应 用 本 身 的 设计 也 可 能 已 经 随 
之 改变 。 可 能 有 更 多 的 新 特性 会 上 线 ， 其 中 某 些 特性 可 能 对 数据 库 造 
成 的 压力 远大 于 原 有 功能 。 而 这 些 压 力 、 数 据 、 关 系 和 特性 的 变化 都 
很 难 模拟 ， 所 以 它们 对 系统 的 影响 也 很 难 评估 。 


结论 就 是 ， 我 们 只 能 进行 大 概 的 测试 ， 来 确定 系统 大 致 的 余 量 有 
多 少 。 当 然 也 可 以 做 一 些 真实 压力 测试 《和 基准 测试 有 区 别 ) ， 但 在 
构造 数据 集 和 压力 的 时 候 要 特别 小 心 ， 而 且 这 样 就 不 再 是 基准 测试 
了 。 基 准 测 试 要 尽量 简单 直接 ， 结 果 之 间 容 易 相互 比较 ， 成 本 低 且 易 
于 执行 。 尽 管 有 诸多 限制 ， 基 准 测试 还 是 非常 有 用 的 (只 要 搞 清 楚 测 
试 的 原理 ， 并 且 了 解 如 何 分 析 结 果 所 代表 的 意义 ) 。 


2.2 ”基准 测试 的 策略 


基准 测试 有 两 种 主要 的 策略 : 一 是 针对 整个 系统 的 整体 测试 ， 另 
外 是 单独 测试 MySQL。 这 两 种 策略 也 被 称 为 集成 式 (full-stack) 以 及 
单 组 件 式 (single-component) 基准 测试 。 针 对 整个 系统 做 集成 式 测 
试 ， 而 不 是 单独 测试 MySQL 的 原因 主要 有 以 下 几 点 : 


测试 整个 应 用 系统 ， 包 括 Web 服 务 器 、 应 用 代码 、 网 络 和 数据 库 
是 非常 有 用 的 ， 因 为 用 户 关 注 的 并 不 仅仅 是 MySQL 本 身 的 性 能 ， 
而 是 应 用 整体 的 性 能 。 

MySQL 并 非 总 是 应 用 的 瓶颈 ， 通 过 整体 的 测试 可 以 揭示 这 一 点 。 
只 有 对 应 用 做 整体 测试 ， 才 能 发 现 各 部 分 之 间 的 缓存 带 来 的 影 
AA]. 

整体 应 用 的 集成 式 测试 更 能 揭示 应 用 的 真实 表现 ， 而 单独 组 件 的 
测试 很 难 做 到 这 一 点 。 


另外 一 方面 ， 应 用 的 整体 基准 测试 很 难 建立 ， 甚 至 很 难 正确 设 
置 。 如 果 基 准 测 试 的 设计 有 问题 ， 那 么 结果 就 无 法 反映 真实 的 情况 ， 
从 而 基于 此 做 的 决策 也 就 可 能 是 错误 的 。 


不 过 ， 有 时候 不 需要 了 人 解 整个 应 用 的 情况 ， 而 只 需要 关注 MySQL 
的 性 能 ， 至 少 在 项 目 初期 可 以 这 样 做 。 基 于 以 下 情况 ， 可 以 选择 只 测 
试 MySQL : 


。 需要 比较 不 同 的 schema 或 查询 的 性 能 。 
。 针对 应 用 中 某 个 具体 问题 的 测试 。 


。 为 了 避免 漫长 的 基准 测试 ， 可 以 通过 一 个 短期 的 基准 测试 ， 做 快 
速 的 “周期 循环 "， 来 检测 出 某 些 调整 后 的 效果 。 


另外 ， 如 果 能 够 在 真实 的 数据 集 上 执行 重复 的 查询 ， 那 么 针对 
MySQL 的 基准 测试 也 是 有 用 的 ， 但 是 数据 本 身 和 数据 集 的 大 小 都 应 该 
是 真实 的 。 如 果 可 能 ， 可 以 采用 生产 环境 的 数据 快照 。 


不 乎 的 是 ， 设 置 一 个 基于 真实 数据 的 基准 测试 复杂 而 且 耗 时 。 如 
果 能 得 到 一 份 生产 数据 集 的 拷贝 ， 当 然 很 手 运 ， 但 这 通 单 不 太 可 能 。 
比如 要 测试 的 是 一 个 刚 开发 的 新 应 用 ， 它 只 有 很 少 的 用 户 和 数据 。 如 
果 想 测试 该 应 用 在 规模 扩张 到 很 大 以 后 的 性 能 表现 ， 就 只 能 通过 模拟 
大 量 的 数据 和 压力 来 进行 。 


2.2.1 ”测试 何 种 指标 


在 开始 执行 甚至 是 在 设计 基准 测试 之 前 ， 需 要 先 明确 测试 的 目 
标 。 测 试 目标 决定 了 选择 什么 样 的 测试 工具 和 技术 ， 以 获得 精确 而 有 
意义 的 测试 结果 。 可 以 将 测试 目标 细 化 为 一 系列 的 问题 ， 比 如 , “这 种 
CPU 是 否 比 另外 一 种 要 快 ?”， 或 “新 索引 是 否 比 当 前 索引 性 能 更 好 ? ” 


有 时 候 需 要 用 不 同 的 方法 测试 不 同 的 指标 。 比 如 ， 针 对 延迟 
(latency) ABMS (throughput) 就 需要 采用 不 同 的 测试 方法 。 


请 考虑 以 下 指标 ， 看 看 如 何 满足 测试 的 需求 。 


AtS 


吞吐 量 指 的 是 单位 时 间 内 的 事务 处 理 数 。 这 一 直 是 经 典 的 数 

据 库 应 用 测试 指标 。 一 些 标准 的 基准 测试 被 广泛 地 引用 ， 如 TPC- 

C (参考 http:/wwwi.tpc.org) ， 而 且 很 多 数据 库 厂商 都 努力 争取 在 

这 些 测 试 中 取得 好 成 绩 。 这 类 基准 测试 主要 针对 在 线 事 务 处 理 

(OLTP) 的 否 吐 量 ， 非 常 适用 于 多 用 户 的 交互 式 应 用 。 常 用 的 测 

试 单位 是 每 秒 事务 数 (TPS) ， 有 些 也 采用 每 分 钟 事务 数 
(TPM) 。 


响应 时 间或 者 延迟 


这 个 指标 用 于 测试 任务 所 需 的 整体 时 间 。 根 据 具 体 的 应 用 ， 
测试 的 时 间 单 位 可 能 是 微 秒 、 毫 秒 、 秒 或 者 分 钟 。 根 据 不 同 的 时 
间 单 位 可 以 计算 出 平均 响应 时 间 、 最 小 响应 时 间 、 最 大 响应 时 间 
和 所 占 百分比 。 最 大 响应 时 间 通 常 意义 不 大 ， 因 为 测试 时 间 越 
长 ， 最 大 响应 时 间 也 可 能 越 大 。 而 且 其 结果 通常 不 可 重复 ， 每 次 
测试 都 可 能 得 到 不 同 的 最 大 响应 时 间 。 因 此 ， 通 常 可 以 使 用 百 分 
比 响 应 时 间 (percentile response time) 来 替代 最 大 响应 时 间 。 例 
如 ， 如 果 95% 的 响应 时 间 都 是 5 毫秒 ， 则 表示 任务 在 95% 的 时 间 段 
内 都 可 以 在 5 毫秒 之 内 完成 。 


使 用 图 表 有 助 于 理解 测试 结果 。 可 以 将 测试 结果 绘制 成 折线 
(比如 平均 值 折 线 或 者 95% 百 分 比 折线 ) 或 者 散 点 图 ， 直 观 地 
表现 数据 结果 集 的 分 布 情况 。 通 过 这 些 图 可 以 发 现 长 时 间 测 试 的 
趋势 。 本 章 后 面 将 更 详细 地 讨论 这 一 点 。 


并 发 性 


并 发 性 是 一 个 非常 重要 又 经 党 被 误解 和 误 用 的 指标 。 例 如 ， 
它 经 常 被 表示 成 多 少 用 户 在 同一 时 间 浏 览 一 个 Web 站 点 ， 经 常 使 
用 的 指标 是 有 多 少 个 会 话 (Y。 然 而 ，HTTP 协 议 是 无 状态 的 ， 大 多 
数 用 户 只 是 简单 地 读 取 浏 览 器 上 显示 的 信息 ， 这 并 不 等 同 于 Web 
服务 器 的 并 发 性 。 而 且 ，Web 服 务 器 的 并 发 性 也 不 等 同 于 数据 库 
的 并 发 性 ， 而 仅仅 只 表示 会 话 存储 机 制 可 以 处 理 多 少数 据 的 能 
力 。Web 服 务 器 的 并 发 性 更 准确 的 度量 指标 ， 应 该 是 在 任意 时 间 
有 多 少 同时 发 生 的 并 发 请 求 。 


在 应 用 的 不 同 环节 都 可 以 测量 相应 的 并 发 性 。Web 服 务 器 的 
高 并 发 ， 一 般 也 会 导致 数据 库 的 高 并 发 ， 但 服务 器 采用 的 语言 和 
工具 集 对 此 都 会 有 影响 。 注 意 不 要 将 创建 数据 库 连 接 和 并 发 性 搞 
混淆 。 一 个 设计 良好 的 应 用 ， 同 时 可 以 打开 成 百 上 千 个 MySQL 数 
据 库 服务 器 连接 ， 但 可 能 同时 只 有 少数 连接 在 执行 查询 。 所 以 
说 ， 一 个 Web 站 点 “同时 有 50000 个 用 户 ” 访 问 ， 却 可 能 只 有 10 人 15 
个 并 发 请 求 到 MySQL 数 据 库 。 


换 句 话说 ， 并 发 性 基准 测试 需要 关注 的 是 正在 工作 中 的 并 发 
操作 ， 或 者 是 同时 工作 中 的 线程 数 或 者 连接 数 。 当 并 发 性 增加 
时 ， 需 要 测量 吞吐 量 是否 下 降 ， 响 应 时 间 是 否 变 长 ， 如 果 是 这 
样 ， 应 用 可 能 就 无 法 处 理 峰 值 压力 。 


并 发 性 的 测量 完全 不 同 于 响应 时 间 和 吞吐 量 。 它 不 像 是 一 个 
结果 ， 而 更 像 是 设置 基准 测试 的 一 种 属性 。 并 发 性 测试 通常 不 是 
为 了 测试 应 用 能 达到 的 并 发 度 ， 而 是 为 了 测试 应 用 在 不 同 并 发 下 
的 性 能 。 当 然 ， 数 据 库 的 并 发 性 还 是 需要 测量 的 。 可 以 通过 
sysbench 指 定 32、64 或 者 128 个 线程 的 测试 ， 然 后 在 测试 期 间 记 录 


MySQL 数 据 库 的 Threads_running 状 态 值 。 在 第 11 章 将 讨论 这 个 指 
标 对 容量 规划 的 影响 。 


可 扩展 性 


在 系统 的 业务 压力 可 能 发 生变 化 的 情况 下 ， 测 试 可 扩展 性 就 
非常 必要 了 。 第 11 章 将 更 进一步 讨论 可 扩展 性 的 话题 。 简 单 地 
说 ， 可 扩展 性 指 的 是 ， 给 系统 增加 一 倍 的 工作 ， 在 理想 情况 下 就 
能 获得 两 倍 的 结果 〈 即 吞吐 量 增加 一 倍 ) 。 或 者 说 ， 给 系统 增加 
一 倍 的 资源 〈 比 如 两 倍 的 CPU 数 ) ， 就 可 以 获得 两 倍 的 吞吐 量 。 
当然 ， 同 时 性 能 《响应 时 间 ) 也 必须 在 可 以 接受 的 范围 内 。 大 多 
效 系统 是 无 法 做 到 如 此 理想 的 线性 扩展 的 。 随 着 压力 的 变化 ， 香 
吐 量 和 性 能 都 可 能 越 来 越 差 。 


可 扩展 性 指标 对 于 容量 规范 非常 有 用 ， 它 可 以 提供 其 他 测试 
无 法 提供 的 信息 ， 来 帮助 发 现 应 用 的 瓶颈 。 比 如 ， 如 果 系统 是 基 
于 单个 用 户 的 响应 时 间 测 试 〈 这 是 一 个 很 糟糕 的 测试 策略 ) 设计 
的 ， 昌 然 测试 的 结果 很 好 ， 但 当 并 发 度 增加 时 ， 系 统 的 性 能 有 可 
能 变 得 非常 糟糕 。 而 一 个 基于 不 断 增 加 用 户 连接 的 情况 下 的 响应 
时 间 测 试 则 可 以 发 现 这 个 问题 。 


一 些 任 务 ， 比 如 从 细 粒 度数 据 创建 汇总 表 的 批量 工作 ， 需 要 
的 是 周期 性 的 快速 响应 时 间 。 当 然 也 可 以 测试 这 些 任务 纯粹 的 响 
应 时 间 ， 但 要 注意 考虑 这 些 任务 之 间 的 相互 影响 。 批 量 工作 可 能 
导致 相互 之 间 有 影响 的 查询 性 能 变 差 ， 反 之 亦 然 。 


归根 结 底 ， 应 该 测试 那些 对 用 户 来 说 最 重要 的 指标 。 因 此 应 该 尽 
可 能 地 去 收集 一 些 需 求 ， 比 如 ， 什 么 样 的 响应 时 间 是 可 以 接受 的 ， 期 


待 多 少 的 并 发 性 ， 等 等 。 然 后 基于 这 些 需 求 来 设计 基准 测试 ， 避 免 目 
光 短 浅 地 只 天 注 部 分 指标 ， 而 忽略 其 他 指标 。 


2.3 ”基准 测试 方法 


在 了 解 基本 概念 之 后 ， 现 在 可 以 来 具体 讨论 一 下 如 何 设计 和 执行 
基准 测试 。 但 在 讨论 如 何 设计 好 的 基准 测试 之 前 ， 先 来 看 一 下 如 何 避 
免 一 些 常 见 的 错误 ， 这 些 错误 可 能 导致 测 试 结果 无 用 或 者 不 精确: 


使 用 真实 数据 的 子 集 而 不 是 全 集 。 例 如 应 用 需要 处 理 几 百 GB 的 数 

据 ， 但 测试 只 有 1GB 数 据 ; 或 者 只 使 用 当前 数据 进行 测试 ， 却 希 

望 模 拟 未 来 业务 大 幅度 增长 后 的 情况 。 

使 用 错误 的 数据 分 布 。 例 如 使 用 均匀 分 布 的 数据 测试 ， 而 系统 的 

真实 数据 有 很 多 热点 区 域 (随机 生成 的 测试 数据 通常 无 法 模拟 真 

实 的 数据 分 布 ) 。 

使 用 不 真实 的 分 布 参数 ， 例 如 假定 所 有 用 户 的 个 人 信息 
(profile) 都 会 被 平均 地 读 取 (2。 

在 多 用 户 场 景 中 ， 只 做 单 用 户 的 测试 。 

在 单 服务 器 上 测试 分 布 式 应 用 。 

与 真实 用 户 行为 不 匹配 。 例 如 Web 页 面 中 的 “思考 时 间 ”。 真 实用 

户 在 请 求 到 一 个 页 面 后 会 阅读 一 段 时 间 ， 而 不 是 不 停顿 地 一 个 接 

一 个 点 击 相关 链接 。 

。 反复 执行 同一 个 查询 。 真 实 的 查询 是 不 尽 相 同 的 ， 这 可 能 会 导 宇 

缓存 命中 率 降低 。 而 反复 执行 同一 个 查询 在 某 种 程度 上 ， 会 全 部 

或 者 部 分 缓存 结果 。 


。 没有 检查 错误 。 如 果 测 试 的 结果 无 法 得 到 合理 的 解释 ， 比 如 一 个 
本 应 该 很 慢 的 查询 突然 变 快 了 ， 就 应 该 检查 是 否 有 错误 产生 。 否 
则 可 能 只 是 测试 了 MySQL 检 测 语法 错误 的 速度 了 。 基 准 测试 完成 
la, 一定 要 检查 一 下 错误 日 志 ， 这 应 当 是 基本 的 要 求 。 

试 。 有 了 时候 需 要 了 解 系统 重 局 后 需要 多 长 时 间 才 能 达到 正常 的 性 
能 容量 ， 要 特别 留意 预 热 的 时 长 。 反 过 来 说 ， 如 果 要 想 分 析 正 常 
的 性 能 ， 需 要 注意 ， 若 基准 测试 在 重启 以 后 马上 启动 ， 则 缓存 是 
冷 的、 还 没有 数据 ， 这 时 即使 测试 的 压力 相同 ， 得 到 的 结果 也 和 
缓存 已 经 法 满 数据 时 是 不 同 的 。 

使 用 默认 的 服务 器 配置 。 第 3 章 将 详细 地 讨论 服务 器 的 优化 配置 。 
测试 时 间 太 短 。 基 准 测试 需要 持续 一 定 的 时 间 。 后 面 会 继续 讨论 


这 个 话题 。 
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只 有 避免 了 上 述 错误 ， 才 能 走 上 改进 测试 质量 的 漫漫 长 路 。 


如 果 其 他 条 件 相同 ， 就 应 努力 使 测试 过 程 尽 可 能 地 接近 真实 应 用 
的 情况 。 当 然 ， 有 时 候 和 真实 情况 稍 有 些 出 入 问题 也 不 大 。 例 如 ， 实 
际 应 用 服务 器 和 数据 库 服务 器 分 别 部 署 在 不 同 的 机 器 。 如 果 采 用 和 实 
际 部 署 完全 相同 的 配置 当然 更 真实 ， 但 也 会 引入 更 多 的 变化 因素 ， 比 
如 加 入 了 网 络 的 负载 和 速度 等 。 而 在 单一 节点 上 运行 测试 相对 要 容 
易 ， 在 某 些 情况 下 结果 也 可 以 接受 ， 那 么 就 可 以 在 单一 节点 上 进行 测 
试 。 当 然 ， 这 样 的 选择 需要 根据 实际 情况 来 分 析 是 否 合适 。 


2.3.1 ”设计 和 规划 基准 测试 


规划 基准 测试 的 第 一 步 是 提出 问题 并 明确 目标 。 然 后 决定 是 采用 
标准 的 基准 测试 ， 还 是 设计 专用 的 测试 。 


如 果 采 用 标准 的 基准 测试 ， 应 该 确认 选择 了 合适 的 测试 方案 。 例 
如 ， 不 要 使 用 TPC-H 测 试 电 子 商务 系统 。 在 TPC 的 定义 中 ,“TPC-H 是 
即席 查询 和 决策 支持 型 应 用 的 基准 测试 ">， 因 此 不 适合 用 来 测试 OLTP 
系统 。 


设计 专用 的 基准 测试 是 很 复杂 的 ， 往 往 需 要 一 个 达 代 的 过 程 。 首 
先 需 要 获得 生产 数据 集 的 快照 ， 并 且 该 快照 很 容易 还 原 ， 以 便 进行 后 
续 的 测试 。 


然后 ， 针 对 数据 运行 查询 。 可 以 建立 一 个 单元 测试 集 作 为 初步 的 
测试 ， 并 运行 多 遍 。 但 是 这 和 真实 的 数据 库 环 境 还 是 有 差别 的 。 更 好 
的 办 法 是 选择 一 个 有 代表 性 的 时 间 段 ， 比 如 高 峰 期 的 一 个 小 时 ， 或 者 
一 整 天 ， 记 录 生 产 系统 上 的 所 有 碍 询 。 如 果 时 间 段 选 得 比较 小 ， 则 可 
以 选择 多 个 时 间 段 。 这 样 有 助 于 覆盖 整个 系统 的 活动 状态 ， 例 如 每 周 
报表 的 查询 、 或 者 非 峰值 时 间 运 行 的 批 处 理 作业 3。 


可 以 在 不 同 级 别 记录 查询 。 例 如 ， 如 果 是 集成 式 (full-stack) Æ 
准 测 试 ， 可 以 记录 Web 服 务 器 上 的 HTTP 请 求 ， 也 可 以 打开 MySQL 的 
查询 日 志 (Query Log) 。 倘 若 要 重演 这 些 查询 ， 就 要 确保 创建 多 线程 
来 并 行 执 行 ， 而 不 是 单个 线程 线性 地 执行 。 对 日 志 中 的 每 个 连接 都 应 
该 创建 独立 的 线程 ， 而 不 是 将 所 有 的 查询 随机 地 分 配 到 一 些 线程 中 。 
查询 日 志 中 记录 了 每 个 查询 是 在 哪个 连接 中 执行 的 。 


即使 不 需要 创建 专用 的 基准 测试 ， 详 细 地 写 下 测试 规划 也 是 必需 
的 。 测 试 可 能 要 多 次 反复 运行 ， 因 此 需要 精确 地 午 现 测试 过 程 。 而 且 


也 应 该 考虑 到 未 来 ， 执 行 下 一 轮 测试 时 可 能 已 经 不 是 同一 个 人 了 。 即 
使 还 是 同一 个 人 ， 也 有 可 能 不 会 确切 地 记得 初次 运行 时 的 情况 。 测 斌 
规划 应 该 记录 测试 数据 、 系 统 配 置 的 步骤 、 如 何 测量 和 分 析 结 果 ， 以 


应 该 建立 将 参数 和 结果 文档 化 的 规范 ， 每 一 轮 测 试 都 必须 进行 详 
细 记 录 。 文 档 规 范 可 以 很 简单 ， 比 如 采用 电子 表格 (spreadsheet) 或 
者 记事 本 形式 ， 也 可 以 是 复杂 的 自 定义 的 数据 库 。 需 要 记 住 的 是 ， 经 
帅 要 与 一 些 脚本 来 分 析 测 试 结 果 ， 因 此 如 果 能 够 不 用 打开 电子 表格 或 
者 文本 文件 等 额外 操作 ， 当 然 是 更 好 的 。 


2.3.2 ”基准 测试 应 该 运行 多 长 时 间 


基准 测试 应 该 运行 足够 长 的 时 间 ， 这 一 点 很 重要 。 如 果 需 要 测试 
系统 在 稳定 状态 时 的 性 能 ， 那 么 当然 需要 在 稳定 状态 下 测试 并 观察 。 
而 如 果 系统 有 大 量 的 数据 和 内 存 ， 要 达到 稳定 状态 可 能 需要 非常 长 的 
时 间 。 大 部 分 系统 都 会 有 一 些 应 对 突 发 情况 的 余 量 ， 能 够 吸收 性 能 尖 
峰 ， 将 一 些 工作 延 述 到 高 峰 期 之 后 执行 。 但 当 对 机 器 加 压 足够 长 时 间 
之 后 ， 这 些 余 量 会 被 消耗 尽 ， 系 统 的 短期 尖峰 也 就 无 法 维持 原来 的 高 
性 能 。 


有 时 候 无 法 确认 测试 需要 运行 多 长 的 时 间 才 足够 。 如 果 是 这 样 ， 
可 以 让 测试 一 直 运 行 ， 持 续 观 察 直 到 人 确认 系统 已 经 稳定 。 下 面 是 一 个 
在 已 知 系统 上 执行 测试 的 例子 ， 图 2-1 显 示 了 系统 磁盘 读 和 写 吞 吐 量 的 
时 序 图 。 
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图 2-1: 扩展 基准 测试 的 VO 性 能 图 


IO 至 少 在 八 小 时 内 变化 还 是 很 大 ， 之 后 有 一 些 点 的 波动 较 大 ， 但 读 和 
写 总 体 来 说 基本 稳定 了 人 多。 一 个 简单 的 测试 规则 ， 就 是 等 系统 看 起 来 


才 结 束 ， 以 确保 能 够 体现 系统 长 期 的 行为 。 


一 个 常见 的 错误 的 测试 方式 是 ， 只 执行 一 系列 短期 的 测试 ， 比 如 
每 次 60 秒 ， 并 在 此 测试 的 基础 上 去 总 结 系统 的 性 能 。 我 们 经 常 可 以 听 
到 类 似 这 样 的 话 :“ 我 尝试 对 新 版 本 做 了 测试 ， 但 还 不 如 旧版 本 快 ”， 
然而 我 们 分 析 实 际 的 测试 结果 后 发 现 ， 测 试 的 方式 根本 不 足以 得 出 这 
样 的 结论 。 有 时 候 人 们 也 会 强调 说 不 可 能 有 时 间 去 测试 8 或 者 12 个 小 
时 ， 以 验证 10 个 不 同 并 发 性 在 两 到 三 个 不 同 版 本 下 的 性 能 。 如 果 没 有 
时 间 去 完成 准确 完整 的 基准 测试 ， 那 么 已 经 花费 的 所 有 时 间 都 是 一 种 
浪费 。 有 了 时候 要 相信 别人 的 测试 结果 ， 这 总 比 做 一 次 半 拉 子 的 测试 来 


得 到 一 个 错误 的 结论 要 好 。 


2.3.3 ”获取 系统 性 能 和 状态 


在 执行 基准 测试 时 ， 需 要 尽 可 能 多 地 收集 被 测试 系统 的 信息 。 最 
好 为 基准 测试 建立 一 个 目录 ， 并 且 每 执行 一 轮 测试 都 创建 单独 的 子 目 
录 ， 将 测试 结果 、 配 置 文件 、 测 试 指标 、 脚 本 和 其 他 相关 说 明 都 保存 
在 其 中 。 即 使 有 些 结果 不 是 目前 需要 的 ， 也 应 该 先 保存 下 来 。 多 余 一 
些 数据 总 比 缺 乏 重 要 的 数据 要 好 ， 而 且 多 余 的 数据 以 后 也 许 会 用 得 
着 。 需 要 记录 的 数据 包括 系统 状态 和 性 能 指标 ， 诸 如 CPU 使 用 率 、 磁 
盘 IO、 网 络 流量 统计 、SHOW GLOBAL STATUS 计数 器 等 。 


下 面 是 一 个 收集 MySQL 测 试 数据 的 shell 脚 本 : 


#1/bin/sh 


INTERVAL=5 
PREFIX=$INTERVAL- sec-status 
RUNFILE=/home/benchmarks/running 
mysql -e 'SHOW GLOBAL VARIABLES' >> mysql-variables 
while test -e $RUNFILE; do 
file=$(date +%F_%I) 
sleep=$(date +%S.%N | awk "{print $INTERVAL - (\$1 % 
$INTERVAL ) }") 
sleep $sleep 
ts="$(date +"TS %S.%N %F %T")" 
loadavg="$(uptime)" 
echo "$ts $loadavg" >> $PREFIX-${file}-status 


mysql -e 'SHOW GLOBAL STATUS' >> $PREFIX-${file}-status 


echo "$ts $loadavg" >> $PREFIX-${file}-innodbstatus 
mysql -e ‘SHOW ENGINE INNODB STATUS\G' >> 
$PREFIX-${file}-innodbstatus & 
echo "$ts $loadavg" >> $PREFIX-${file}-processlist 
mysql -e 'SHOW FULL PROCESSLIST\G' >> $PREFIX-${file}- 
processlist & 
echo $ts 
done 


echo Exiting because $RUNFILE does not exist. 


这 个 shell 脚 本 很 简单 ， 但 提供 了 一 个 有 效 的 收集 状态 和 性 能 数据 
的 框架 。 看 起 来 好 像 作 用 不 大 ， 但 当 需 要 在 多 个 服务 器 上 执行 比较 复 
杂 的 测试 的 时 候 ， 要 回答 以 下 关于 系统 行为 的 问题 ， 没 有 这 种 脚本 的 
话 就 会 很 困难 了 。 下 面 是 这 个 脚本 的 一 些 要 点 : 


。 迭代 是 基于 固定 时 间 间 隔 的 ， 每 隔 5 秒 运行 一 次 收集 的 动作 ， 注 意 
这 里 sleep 的 时 间 有 一 个 特殊 的 技巧 。 如 果 只 是 简单 地 在 每 次 循环 
时 插入 一 条 “sleep 5 的 指令 ， 循 环 的 执行 间隔 时 间 一 般 都 会 稍 大 
于 5 秒 ， 那 么 这 个 脚本 就 没有 办 法 通过 其 他 脚本 和 图 形 简 单 地 捕获 
时 间 相 关 的 准确 数据 。 即 使 有 时 候 循 环 能 够 恰好 在 5 秒 内 完成 ， 但 
如 果 某 些 系 统 的 时 间 惟 是 15:32:18.218192 ， 另 外 一 个 则 是 
15:32:23.819437， 这 时 候 就 比较 讨 大 了。 当然 这 里 的 5 秒 也 可 以 改 
成 其 他 的 时 间 间 隔 ， 比 如 1、10、30 或 者 60 秒 。 不 过 还 是 推荐 使 用 
5 秒 或 者 10 秒 的 间隔 来 收集 数据 。 


每 个 文件 名 都 包含 了 该 轮 测 试 开始 的 日 期 和 小 时 。 如 果 测 试 要 持 
续 好 几 天 ， 那 么 这 个 文件 可 能 会 非常 大 ， 有 必要 的 话 需 要 手工 将 
文件 移 到 其 他 地 方 ， 但 要 分 析 全 部 结果 的 时 候 要 注意 从 最 早 的 文 
件 开 始 。 如 果 只 需要 分 析 某 个 时 间 点 的 数据 ， 则 可 以 根据 文件 名 
中 的 日 期 和 小 时 迅速 定位 ， 这 比 在 一 个 GB 以 上 的 大 文件 中 去 搜索 
要 快捷 得 多 。 

每 次 抓 取 数据 都 会 先 记 录 当 前 的 时 间 惟 ， 所 以 可 以 在 文件 中 搜索 
某 个 时 间 点 的 数据 。 也 可 以 写 一 些 awk 或 者 sed 脚 本 来 简化 操作 。 
这 个 脚本 不 会 处 理 或 者 过 滤 收集 到 的 数据 。 先 收集 所 有 的 原始 数 
据 ， 然 后 再 基于 此 做 分 析 和 过 滤 是 一 个 好 习惯 。 如 果 在 收集 的 时 
候 对 数据 做 了 预 处 理 ， 而 后 续 分 析 发 现 一 些 异 常 的 地 方 需 要 用 到 
更 多 的 原始 数据 ， 这 时 候 就 要 “ 抓 瞎 ”了 。 

如 果 需 要 在 测试 完成 后 脚本 自动 退出 ， 只 需要 删 
除 /home/benchmarks/running 文 件 即 可 。 


这 只 是 一 段 简 单 的 代码 ， 或 许 不 能 满足 全 部 的 需求 ， 但 却 很 好 地 
演示 了 该 如 何 捕获 测试 的 性 能 和 状态 数据 。 从 代码 可 以 看 出 ， 只 捕获 
了 MySQL 的 部 分 数据 ， 如 果 需 要 ， 则 很 容易 通过 修改 脚本 添加 新 的 数 
据 捕 获 。 例 如 ， 可 以 通过 pt-diskstats 工 具 3 捕 获 /proc/diskstats 的 数据 为 
后 续 分 析 磁 盘 IO 使 用 。 


2.3.4 ”获得 准确 的 测试 结果 


获得 准确 测试 结果 的 最 好 办 法 ， 是 回答 一 些 关 于 基准 测试 的 基本 
问题 : 是 否 选 择 了 正确 的 基准 测试 ? 是 否 为 问题 收集 了 相关 的 数据 ? 
是 否 采 用 了 错误 的 测试 标准 ? 例如 ， 是 否 对 一 个 IO 密集 型 (1/O- 


bound) 的 应 用 ， 采 用 了 CPU 密集 型 (CPU-bound) 的 测试 标准 来 评估 


性 能 ? 


接着 ,确认 测试 结果 是 否 可 重复 。 每 次 重新 测试 之 前 要 确保 系统 
的 状态 是 一 致 的 。 如 果 是 非常 重要 的 测试 ， 甚 至 有 必要 每 次 测试 都 重 


就 是 不 可 重复 的 。 


如 果 测 试 的 过 程 会 修改 数据 或 者 schema， 那 么 每 次 测试 前 ， 需 要 
利用 快照 还 原 数 据 。 在 表 中 插入 1000 条 记录 和 插入 100 万 条 记录 ， 测 试 
结果 肯定 不 会 相同 。 数 据 的 碎片 度 和 在 磁盘 上 的 分 布 ， 都 可 能 导致 测 
试 是 不 可 重复 的 。 一 个 确保 物理 磁盘 数据 的 分 布 尽 可 能 一 致 的 办 法 
是 ， 每 次 都 进行 快速 格式 化 并 进行 磁盘 分 区 复制 。 


要 注意 很 多 因素 ， 包 括 外 部 的 压力 、 性 能 分 析 和 监控 系统 、 详 细 
的 日 志 记 录 、 周 期 性 作业 ， 以 及 其 他 一 些 因 素 ， 都 会 影响 到 测试 结 
果 。 一 个 典型 的 案例 ， 就 是 测试 过 程 中 突然 有 cron 定 时 作业 启动 ， 或 
者 正 处 于 一 个 巡查 读 取 周 期 (Patrol Read cycle) ， 抑 或 RAID 卡 启动 了 
定时 的 一 致 性 检查 等 。 要 确保 基准 测试 运行 过 程 中 所 需要 的 资源 是 专 
用 于 测试 的 。 如 果 有 其 他 额外 的 操作 ， 则 会 消耗 网 络 带宽 ， 或 者 测试 
基于 的 是 和 其 他 服务 器 共享 的 SAN 存 储 ， 那 么 得 到 的 结果 很 可 能 是 不 
准确 的 。 


每 次 测试 中 ， 修 改 的 参数 应 该 尽量 少 。 如 果 必 须要 一 次 修改 多 个 
参数 ， 那 么 可 能 会 丢失 一 些 信息 。 有 些 参 数 依赖 其 他 参数 ， 这 些 参数 


可 能 无 法 单独 修改 。 有 时 候 甚 至 都 没有 意识 到 这 些 依赖 ， 这 给 测试 融 
KT BARES, 


一 般 情 况 下 ， 都 是 通过 迭代 逐步 地 修改 基准 测试 的 参数 ， 而 不 是 
每 次 运行 时 都 做 大 量 的 修改 。 举 个 例子 ， 如 果 要 通过 调整 参数 来 创造 
一 个 特定 行为 ， 可 以 通过 使 用 分 治 法 〈divide-and-conquer， 每 次 运行 
时 将 参数 对 分 减 半 ) 来 找到 正确 的 值 。 


很 多 基准 测试 都 是 用 来 做 预测 系统 迁移 后 的 性 能 的 ， 比 如 从 
Oracle 迁 移 到 MySQL。 这 种 测试 通 音 比较 及 烦 ， 因 为 MySQL 执 行 的 查 
询 类 型 与 Oracle 完 全 不 同 。 如 果 想 知道 在 Oracle 运 行 得 很 好 的 应 用 迁移 
到 MySQL 以 后 性 能 如 何 ， 通 党 需要 重新 设计 MySQL 的 schema 和 查询 

(在 某 些 情况 下 ， 比 如 ， 建 立 一 个 跨 平 台 的 应 用 时 ， 可 能 想 知 道 同一 
条 查询 是 如 何在 两 个 平台 运行 的 ， 不 过 这 种 情况 并 不 多 见 ) 。 


另外 ， 基 于 MySQL 的 默认 配置 的 测试 没有 什么 意义 ， 因 为 默认 配 
置 是 基于 消耗 很 少 内 存 的 极 小 应 用 的 。 有 时 候 可 以 看 到 一 些 MySQL 和 
其 他 商业 数据 库 产品 的 对 比 测试 ， 结 果 很 让 人 槛 界 ， 可 能 就 是 MySQL 
采用 了 默认 配置 的 缘故 。 让 人 无 语 的 是 ， 这 样 明 显 有 误 的 测试 结果 还 
容易 变 成 头条 新 闻 。 


固态 存储 〈SSD 或 者 PCI-E 卡 ) 给 基准 测试 带 来 了 很 大 的 挑战 ， 第 


9 章 将 进一步 讨论 。 


最 后 ， 如 果 测 试 中 出 现 异 党 结果 ， 不 要 轻易 当 作 坏 数 据点 而 丢 
弃 。 应 该 认真 研究 并 找到 产生 这 种 结果 的 原因 。 测 试 可 能 会 得 到 有 价 
值 的 结果 ， 或 者 一 个 严重 的 错误 ， 抑 或 基准 测试 的 设计 缺陷 。 如 果 对 


测试 结果 不 了 解 ， 融 不 要 轻易 公布 。 有 一 些 和 案例 表明 ， 异 单 的 测试 结 
果 往 往 都 是 由 于 很 小 的 错误 导致 的 ， 最 后 搞 得 测试 无 功 而 返 (2。 


2.3.5 ”运行 基准 测试 并 分 析 结 果 
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通常 来 说 ， 自 动 化 基准 测试 是 个 好 主意 。 这 样 做 可 以 获得 更 精确 
的 测试 结果 。 因 为 自动 化 的 过 程 可 以 防止 测试 人 员 偶 尔 遗 漏 某 些 步 
又 ， 或 者 误 操 作 。 另 外 也 有 助 于 归档 整个 测试 过 程 。 


自动 化 的 方式 有 很 多 ， 可 以 是 一 个 Makefile 文 件 或 者 一 组 脚本 。 
脚本 语言 可 以 根据 需要 选择 : shell、PHP、Perl 等 都 可 以 。 要 尽 可 能 地 


录 结 果 等 。 


“qs ] 一旦 设置 了 正确 的 自动 化 操作 ， 基 准 测试 将 成 为 一 步 式 操作 。 如 果 只 是 针对 某 些 
应 用 做 一 次 性 的 快速 验证 测试 ， 可 能 就 没 必要 做 自动 化 。 但 只 要 未 来 可 能 会 引用 到 测试 结 
果 ， 建 议 都 尽量 地 自动 化 。 否 则 到 时 候 可 能 就 搞 不 清楚 是 如 何 获得 这 个 结果 的 ， 也 不 记得 采 


用 了 什么 参数 ， 这 样 就 很 难 再 通过 测试 重 现 结果 了 。 


基准 测试 通常 需要 运行 多 次 。 具 体 需 要 运行 多 少 次 要 看 对 结果 的 
记分 方式 ， 以 及 测试 的 重要 程度 。 要 提高 测试 的 准确 度 ， 就 需要 多 运 
行 几 次 。 一 般 在 测试 的 实践 中 ， 可 以 取 最 好 的 结果 值 ， 或 者 所 有 结果 
的 平均 值 ， 抑 或 从 五 个 测试 结果 里 取 最 好 三 个 值 的 平均 值 。 可 以 根据 
需要 更 进一步 精确 化 测试 结果 。 还 可 以 对 结果 使 用 统计 方法 ， 确 定 置 
信和 区 间 (confidence interval) 等 。 不 过 通常 来 说 ， 不 会 用 到 这 种 程度 


的 确定 性 结果 人 。 只 要 测试 的 结果 能 满足 目前 的 需求 ， 简 单 地 运行 几 
轮 测 试 ， 看 看 结果 的 变化 就 可 以 了 。 如 果 结 果 变 化 很 大 ， 可 以 再 多 运 
行 几 次 ， 或 者 运行 更 长 的 时 间 ， 这 样 都 可 以 获得 更 确定 的 结果 。 


获得 测试 结果 后 ， 还 需要 对 结果 进行 分 析 ， 也 就 是 说 ， 要 把 “ 数 
字 ” 变 成 “知识 ”。 最 终 的 目的 是 回答 在 设计 测试 时 的 问题 。 理 想 情 况 
下 ， 可 以 获得 诸如 “升级 到 4 核 CPU 可 以 在 保持 响应 时 间 不 变 的 情况 下 
获得 超过 50% 的 吞吐 量 增 长 ”或 者 “增加 索引 可 以 使 查询 更 快 ” 的 结论 。 
如 果 需 要 更 加 科学 化 ， 建 议 在 测试 前 读 读 null hypothesis 一 书 ， 但 大 部 
分 情况 下 不 会 要 求 做 这 么 严格 的 基准 测试 。 


如 何 从 数据 中 抽象 出 有 意义 的 结果 ， 依 赖 于 如 何 收集 数据 。 通 常 
需要 与 一 些 脚本 来 分 析 效 据 ， 这 不 仅 能 减轻 分 析 的 工作 量 ， 而 且 和 目 
动 化 基准 测试 一 样 可 以 重复 运行 ， 并 易于 文档 化 。 下 面 是 一 个 非常 简 
单 的 shell 脚 本 ， 关 示 了 如 何 从 前 面 的 数据 采集 脚本 采集 到 的 数据 中 抽 
取 时 间 维 度 信息 。 脚 本 的 输入 参数 是 采集 到 的 数据 文件 的 名 字 。 


#!/bin/sh 


# This script converts SHOW GLOBAL STATUS into a tabulated 
format, one line 
# per sample in the input, with the metrics divided by the 
time elapsed 
# between samples. 
awk ' 
BEGIN { 


printf "#ts date time load QPS"; 


fmt = " %.2f"; 

} 

/^TS/ { # The timestamp lines begin with TS. 
ts = substr($2, 1, index($2, ".") - 1); 
load = NF - 2; 
diff = ts - prev_ts; 
prev_ts = ts; 
printf "\n%s %s %s %s", ts, $3, $4, substr($load, 1, 

length($load)-1); 
} 
/Queries/ { 
printf fmt, ($2-Queries)/diff; 
Queries=$2 

} 

' ng@" 


假设 该 脚本 名 为 analyze， 当 前 面 的 脚本 生成 状态 文件 以 后 ， 就 可 
以 运行 该 脚本 ， 可 能 会 得 到 如 下 的 结果 : 


[baron@ginger ~]$ ./analyze 5-sec-status-2011-03-20 


#ts date time load QPS 


1300642150 2011-03-20 17:29:10 0.00 0.62 

1300642155 2011-03-20 17:29:15 0.00 1311.60 
1300642160 2011-03-20 17:29:20 0.00 1770.60 
1300642165 2011-03-20 17:29:25 0.00 1756.60 
1300642170 2011-03-20 17:29:30 0.00 1752.40 


1300642175 2011-03-20 17:29:35 0.00 1735.00 
1300642180 2011-03-20 17:29:40 0.00 1713.00 
1300642185 2011-03-20 17:29:45 0.00 1788.00 


1300642190 2011-03-20 17:29:50 0.00 1596.40 


第 一 行 是 列 的 名 字 ; 第 二 行 的 数据 应 该 忽略 ， 因 为 这 是 测试 实际 
启动 前 的 数据 。 接 下 来 的 行 包 含 Unix 时 间 戳 、 日 期 、 时 间 (注意 时 间 
数据 是 每 5 秒 更 新 一 次 ， 前 面 脚本 说 明 时 曾 提 过 ) 、 系 统 负载 、 数 据 库 
的 QPS (每 秒 查 询 次 数 ) 五 列 ， 这 应 该 是 用 于 分 析 系 统 性 能 的 最 少数 
据 需 求 了 。 接 下 来 将 演 示 如 何 根据 这 些 数 据 快速 地 绘 成 图 形 ， 并 分 析 
基准 测试 过 程 中 发 生 了 什么 。 


2.3.6 ”绘图 的 重要 性 


如 果 你 想 要 统治 世界 ， 就 必须 不 断 地 利用 “阴谋 ”98)。 而 最 简单 有 
效 的 图 形 ， 就 是 将 性 能 指标 按照 时 间 顺 序 绘 制 。 通 过 图 形 可 以 立刻 发 
现 一 些 问题 ， 而 这 些 问题 在 原始 数据 中 却 很 难 被 注意 到 。 或 许 你 会 坚 
持 看 测试 工具 打印 出 来 的 平均 值 或 其 他 汇总 过 的 信息 ， 但 平均 值 有 时 
候 是 没有 用 的 ， 它 会 掩盖 掉 一 些 真 实情 况 。 幸 运 的 是 ， 前 面 写 的 脚本 
的 输出 都 可 以 定制 作为 qnuplot 或 者 R 绘 图 的 数据 来 源 。 假 设 使 用 
gnuplot， 假 设 输出 的 数据 文件 名 是 QPS-per-5-seconds: 


gnuplot> plot "QPS-per-5-seconds" using 5 w lines 


title"gps" 


该 qgnuplot 命 令 将 文件 的 第 五 列 qps 数 据 绘 成 图 形 ， 图 的 标题 是 
QPS。 图 2-2 是 绘制 出 来 的 结果 图 。 


图 2-2: 基准 测试 的 QPS 图 形 


下 面 我 们 讨论 一 个 可 以 更 加 体现 图 形 价值 的 例子 。 假 设 MySQL 数 
据 正 在 遭受 “疯狂 刷新 (furious flushing) ”的 问题 ， 在 刷新 落后 于 检查 
点 时 会 阻塞 所 有 的 活动 ， 从 而 导致 吞吐 量 严重 下 跌 。95% 的 响应 时 间 
和 平均 响应 时 间 指 标 都 无 法 发 现 这 个 问题 ， 也 就 是 说 这 两 个 指标 掩盖 
了 问题 。 但 图 形 会 显示 出 这 个 周期 性 的 问题 ， 请 参考 图 2-3。 


2-3 显 示 的 是 每 分 钟 新 订单 的 交易 量 (NOTPM new-order 
transactions per minute) 。 从 曲线 可 以 看 到 明显 的 周期 性 下 降 ， 但 如 果 
从 平均 值 (点 状 虚 线 ) 来 看 波动 很 小 。 一 开始 的 低谷 是 由 于 系统 的 缓 
存 是 空 的 ， 而 后 面 其 他 的 下 跌 则 是 由 于 系统 刷新 脏 块 到 磁盘 导致 。 如 
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图 2-3: 一 个 30 分 钟 的 dbt2 测 试 的 结果 


这 种 性 能 尖 刺 在 压力 大 的 系统 比较 常见 ， 需 要 调查 原因 。 在 这 个 
案例 中 ， 是 由 于 使 用 了 旧版 本 的 InnoDB 引 擎 ， 脏 块 的 刷新 算法 性 能 很 
差 。 但 这 个 结论 不 能 是 想当然 的 ， 需 要 认真 地 分 析 详细 的 性 能 统计 。 
在 性 能 下 跌 时 ，SHOW ENGINE INNODB STATUS 的 输出 是 什么 ? 
SHOW FULL PROCESSLIST 的 输出 是 什么 ? 应 该 可 以 发 现 InnoDB 在 
持续 地 刷新 脏 块 ， 并 且 阻 塞 了 很 多 状态 是 “waiting on query cache lock” 
的 线程 ， 或 者 其 他 类 似 的 现象 。 在 执行 基准 测试 的 时 候 要 尽 可 能 地 收 
集 更 多 的 细节 数据 ， 然 后 将 数据 绘制 成 图 形 ， 这 样 可 以 帮助 快速 地 发 


现 问题 。 


24 ”基准 测试 工具 


没有 必要 开发 自己 的 基准 测试 系统 ， 除 非 现 有 的 工具 确实 无 法 满 
足 需 求 。 下 面 的 章节 会 介绍 一 些 可 用 的 工具 。 


2.4.1 ”集成 式 测 试 工具 


回忆 一 下 前 文 提供 的 两 种 测试 类 型 : 集成 式 测试 和 单 组 件 式 测 
试 。 写 不 奇怪 ， 有 些 工 具 是 针对 整个 应 用 进行 测试 ， 也 有 些 工具 是 针 
对 MySQL 或 者 其 他 组 件 单独 进行 测试 的 。 集 成 式 测试 ， 通 瘦 是 获得 整 
个 应 用 概况 的 最 佳 手段 。 已 有 的 集成 式 测试 工具 如 下 所 示 。 


ab 


ab 是 一 个 Apache HTTP 服 务 器 基准 测试 工具 。 它 可 以 测试 
HTTP 服 务 器 每 秒 最 多 可 以 处 理 多 少 请 求 。 如 果 测 试 的 是 Web 应 用 
服务 ， 这 个 结果 可 以 转换 成 整个 应 用 每 秒 可 以 满足 多 少 请 求 。 这 
是 个 非常 简单 的 工具 ， 用 途 也 有 限 ， 只 能 针对 单个 URL 进 行 尽 可 
能 快 的 压力 测试 。 关 于 ab 的 更 多 信息 可 以 参考 
http://httpd.apache.org/docs/2.0/programs/ab.htmlo 


http_load 


这 个 工具 概念 上 和 ab 类 似 ， 也 被 设计 为 对 Web 服 务 器 进行 测 
试 ， 但 比 abp 要 更 加 有 灵活。 可 以 通过 一 个 输入 文件 提供 多 个 URL， 
http_load 在 这 些 URL 中 随机 选择 进行 测试 。 也 可 以 定制 
http_load， 使 其 按照 时 间 比 率 进 行 测试 ， 而 不 仅仅 是 测试 最 大 请 
求 处 理 能 力 。 更 多 信息 请 参考 http:/www.acme.com/software/http- 
load/o 


JMeter 


JMeter 是 一 个 Java 应 用 程序 ， 可 以 加 载 其 他 应 用 并 测试 其 性 
能 。 它 虽然 是 设计 用 来 测试 Web 应 用 的 ， 但 也 可 以 用 于 测试 其 他 
诸如 FTP 服 务 器 ， 或 者 通过 JDBC 进 行 数据 库 查 询 测试 。 


JMeter 比 ab 和 jhttp_load 都 要 复杂 得 多 。 例 如 ， 它 可 以 通过 控 


有 绘图 接口 ( 带 有 内 置 的 图 形 化 处 理 的 功能 ) ， 还 可 以 对 测试 进 
行 记录 ， 然 后 离线 重演 测试 结果 。 更 多 信息 请 参考 
http://jakarta.apache.org/jmeter/o 


2.4.2 ” 单 组 件 式 测试 工具 


有 一 些 有 用 的 工具 可 以 测试 MySQL 和 基于 MySQL 的 系统 的 性 
能 。2.5 节 将 演示 如 何 利用 这 些 工 具 进 行 测试 。 


mysqlslap 


mysqlslap 
(http://dev.mysql.com/doc/refman/5.1/en/mysqlslap.html) 可 以 模拟 
服务 器 的 负载 ， 并 输出 计时 信息 。 它 包含 在 MySQL 5.1 的 发 行 包 
中 ， 应 该 在 MySQL 4.1 或 者 更 新 的 版 本 中 都 可 以 使 用 。 测 试 时 可 
以 执行 并 发 连接 数 ， 并 指定 SQL 语句 (可 以 在 命令 行 上 执行 ， 也 
可 以 把 SQL 语句 写 入 到 参数 文件 中 ) 。 如 果 没 有 指定 SQL 语句 ， 
mysqlslap 会 自动 生成 查询 schema 的 SELECT 语句 。 


MySQL Benchmark Suite (sql-bench) 


在 MySQL 的 发 行 包 中 也 提供 了 一 款 自己 的 基准 测试 套件 ， 可 
以 用 于 在 不 同 数据 库 服务 器 上 进行 比较 测试 。 它 是 单线 程 的 ， 主 
要 用 于 测试 服务 器 执行 查询 的 速度 。 结 果 会 显示 哪 种 类 型 的 操作 
在 服务 器 上 执行 得 更 快 。 


这 个 测试 套件 的 主要 好 处 是 包含 了 大 量 预 定义 的 测试 ， 容 易 
使 用 ， 所 以 可 以 很 轻松 地 用 于 比较 不 同 存 储 引 擎 或 者 不 同 配置 的 
性 能 测试 。 其 也 可 以 用 于 高 层次 测试 ， 比 较 两 个 服务 器 的 总 体 性 
能 。 当 然 也 可 以 只 执行 预定 义 测 试 的 子 集 (例如 只 测试 UPDATE 
的 性 能 ) 。 这 些 测 试 大 部 分 是 CPU 密 集 型 的 ， 但 也 有 些 短 时 间 的 
测试 需要 大 量 的 磁盘 1/O 操 作 。 


这 个 套件 的 最 大 缺点 主要 有 : 它 是 单 用 户 模式 的 ， 测 试 的 数 
据 集 很 小 且 用 户 无 法 使 用 指定 的 数据 ， 并 且 同 一 个 测试 多 次 运行 
的 结果 可 能 会 相差 很 大 。 因 为 是 单线 程 且 串 行 执行 的 ， 所 以 无 法 
测试 多 CPU 的 能 力 ， 只 能 用 于 比较 单 CPU 服 务 器 的 性 能 差别 。 使 
用 这 个 套件 测试 数据 库 服务 器 还 需要 Perl/ 和 BDB 的 支持 ， 相 关 文 
档 请 参考 http://dev.mysql.com/doc/en/mysql-benchmarks.html/。 


Super Smack 


Super Smack (http://vegan.net/tony/supersmack/) 是 一 款 用 于 
MySQL 和 PostgreSQL 的 基准 测试 工具 ， 可 以 提供 压力 测试 和 负载 
生成 。 这 是 一 个 复杂 而 强大 的 工具 ， 可 以 模拟 多 用 户 访问 ， 可 以 
加 载 测 试 数据 到 数据 库 ， 并 支持 使 用 随机 数据 填充 测试 表 。 测 试 
定义 在 “smack” 文 件 中 ，smack 文 件 使 用 一 种 简单 的 语法 定义 测试 
的 客户 端 、 表 、 查 询 等 测试 要 素 。 


Database Test Suite 


Database Test Suite 是 由 开源 软件 开发 实验 室 (OSDL, Open 
Source Development Labs) 设计 的 ， 发 布 在 SourceForge 网 站 
(http://sourceforge.net/projects/osdldbt/) 上 ， 这 是 一 款 类 似 某 些 
工业 标准 测试 的 测试 工具 集 ， 例 如 由 事务 处 理性 能 委员 会 
(TPC, Transaction Processing Performance Council) 制定 的 各 种 
标准 。 特 别 值得 一 提 的 是 ， 其 中 的 dbt2 就 是 一 款 免 费 的 TPC-C 
OLTP 测 试 工具 (未 认证 ) 。 之 前 本 书 作者 经 常 使 用 该 工具 ， 不 过 
现在 已 经 使 用 自己 研 友 的 专用 于 MySQL 的 测试 工具 蔡 代 了 。 


Percona's TPCC-MySQL Tool 


我 们 开发 了 一 个 类 似 TPC-C 的 基准 测试 工具 集 ， 其 中 有 部 分 
是 专门 为 MySQL 测 试 开 发 的 。 在 评估 大 压力 下 MySQL 的 一 些 行 
为 时 ， 我 们 经 常会 利用 这 个 工具 进行 测试 (简单 的 测试 ， 一 般 会 
采 用 sysbench 替代 ) 。 该 工具 的 源 人 代码 可 以 在 
https://launchpad.net/perconatools 下 载 ， 在 源码 库 中 有 一 个 简单 的 
文档 说 明 。 


sysbench 


sysbench (https://launchpad.net/sysbench) 是 一 款 多 线程 系统 
压 测 工具 。 它 可 以 根据 影响 数据 库 服务 器 性 能 的 各 种 因素 来 评估 
系统 的 性 能 。 例 如 ， 可 以 用 来 测试 文件 W/O、 操作 系统 调度 器 、 内 
存 分 配 和 传输 速度 、POSIX 线 程 ， 以 及 数据 库 服务 器 等 。sysbench 
支持 Lua 脚 本 语言 (http:/www.luaorg) ，Lua 对 于 各 种 测试 场景 


的 设置 可 以 非常 灵活 。sysbench 是 我 们 非常 喜欢 的 一 种 全 能 测试 
工具 ， 支 持 MySQL、 操作 系统 和 硬件 的 硬件 测试 。 


MySQL 的 BENCHMARK(0 函 数 


MySQL 有 一 个 内 置 的 BENCHMARK0O 函 数 ， 可 以 测试 某 些 特 定 
操作 的 执行 速度 。 人 参数 可 以 是 需要 执行 的 次 数 和 表达 式 。 表 达 式 可 
以 是 任何 的 标量 表达 式 ， 比 如 返回 值 是 标量 的 子 查询 或 者 国 数 。 该 
国 数 可 以 很 方便 地 测试 某 些 特定 操作 的 性 能 ， 比 如 通过 测试 可 以 发 
EL, MDSQeRIEXEESHA1()PRIBK EIR: 


mysql> SET @input := ‘hello world’ 
—_ SELECT BENCHMARK (1000000, ns (einput)); 


1 row in set (2.78 
mysql> SELECT ea SHA1(@input)); 


+----------------------------------+ 
+----------------------------------+ 


+----------------------------------+ 


1 row in set (3.50 sec) 


执行 后 的 返回 值 永远 是 09， 但 可 以 通过 客户 端 返回 的 时 间 来 判 
断 执 行 的 时 间 。 在 这 个 例子 中 可 以 看 到 MD5() 执 行 比 SHA10 要 快 。 
使 用 BENCHMARK0O 国 数 来 测试 性 能 ， 需 要 清 芭 地 知道 其 原理 ， 否 
则 容易 误 用 。 这 个 函数 只 是 简单 地 返回 服务 器 执行 表达 式 的 时 间 ， 
而 不 会 涉及 分 析 和 优化 的 开销 。 而 且 表 达 式 必须 像 这 个 例子 一 样 包 
含 用 户 定义 的 变量 ， 否 则 多 次 执行 同样 的 表达 式 会 因为 系统 缓存 命 
中 影响 结果 (0)。 


里 然 BENCHMARK0O 遂 数 用 起 来 很 方便 ， 但 不 合适 用 来 做 真正 
的 基准 测试 ， 因 为 很 难 理解 真正 要 测试 的 是 什么 ， 而 且 测 试 的 只 是 
整个 执行 周期 中 的 一 部 分 环节 。 


2.5 ”基准 测试 案例 


本 节 将 六 示 一 些 利 用 上 面 提 到 的 基准 测试 工具 进行 测试 的 真实 案 
例 。 这 些 案例 未 必 涵 盖 所 有 测试 工具 ， 但 应 该 可 以 帮助 读者 针对 自己 
的 测试 需要 来 做 出 判断 和 选择 ， 并 作为 入 门 的 开端 。 


2.5.1 http_load 


下 面 通过 一 个 简单 的 例子 来 演示 如 何 使 用 http_Joad。 首 先 创建 一 
个 urls.txt 文 件 ， 输 入 如 下 的 URL: 


http://www.mysqlperformanceblog.com/ 
http: //www.mysqlperformanceblog.com/page/2/ 
http: //www.mysqlperformanceblog.com/mysql-patches/ 
http: //www.mysqlperformanceblog.com/mysql-performance- 
presentations/ 
http: //www.mysqlperformanceblog.com/2006/09/06/slow- query - 


log-analyzes-tools/ 


http_load 最 简单 的 用 法 ， 就 是 循环 请 求 给 定 的 URL 列 表 。 测 试 程 
序 将 以 最 快 的 速度 请 求 这 些 URL.: 


$ http_load -parallel 1 -seconds 10 urls.txt 
19 fetches, 1 max parallel, 837929 bytes, in 10.0003 
seconds 
44101.5 mean bytes/connection 
1.89995 fetches/sec, 83790.7 bytes/sec 
msecs/connect: 41.6647 mean, 56.156 max, 38.21 min 
msecs/first-response: 320.207 mean, 508.958 max, 179.308 
min 
HTTP response codes: 


code 200 - 19 


测试 的 结果 很 容易 理解 ， 只 是 简单 地 输出 了 请 求 的 统计 信息 。 下 
面 是 另外 一 个 稍微 复杂 的 测试 ， 还 是 尽 可 能 快 地 循环 请 求 给 定 的 URL 
列表 ， 不 过 模拟 同时 有 五 个 并 发 用 户 在 进行 请 求 : 


$ http_load -parallel 5 -seconds 10 urls.txt 

94 fetches, 5 max parallel, 4.75565e+06 bytes, in 10.0005 
seconds 

50592 mean bytes/connection 

9.39953 fetches/sec, 475541 bytes/sec 

msecs/connect: 65.1983 mean, 169.991 max, 38.189 min 


msecs/first-response: 245.014 mean, 993.059 max, 99.646 min 


HTTP response codes: 


code 200 - 94 


另外 ， 除 了 测试 最 快 的 速度 ， 也 可 以 根据 预 估 的 访问 请 求 率 〈 比 
如 每 秒 5 次 ) 来 做 压力 模拟 测试 。 


$ http_load -rate 5 -seconds 10 urls.txt 
48 fetches, 4 max parallel, 2.50104e+06 bytes, in 10 
seconds 
52105 mean bytes/connection 
4.8 fetches/sec, 250104 bytes/sec 
msecs/connect: 42.5931 mean, 60.462 max, 38.117 min 
msecs/first-response: 246.811 mean, 546.203 max, 108.363 
min 
HTTP response codes: 


code 200 - 48 


最 后 ， 还 可 以 模拟 更 大 的 负载 ， 可 以 将 访问 请 求 率 提高 到 每 秒 20 
次 请 求 。 请 注意 ， 连 接 和 请 求 响应 时 间 都 会 随 着 负载 的 提高 而 增加 。 


$ http_load -rate 20 -seconds 10 urls.txt 

111 fetches, 89 max parallel, 5.91142e+06 bytes, in 10.0001 
seconds 

53256.1 mean bytes/connection 

11.0998 fetches/sec, 591134 bytes/sec 


msecs/connect: 100.384 mean, 211.885 max, 38.214 min 


msecs/first-response: 2163.51 mean, 7862.77 max, 933.708 
min 
HTTP response codes: 


code 200 -- 111 


2.5.2 MySQL 基准 测试 套件 


MySQL 基 准 测试 套件 (MySQL Benchmark Suite) 由 一 组 基于 Perl 
开发 的 基准 测试 工具 组 成 。 在 MySQL 安 装 目录 下 的 sql-bench 子 目录 中 
包含 了 该 工具 。 比 如 在 Debian GNU/Linux 系统 上 ， 默 认 的 路 径 


是 /usr/share/mysqlsql-bench。 


在 用 这 个 工具 集 测试 前 ， 应 该 读 一 下 README 文 件 ， 了 解 使 用 方 
法 和 命令 行 参 数 说 明 。 如 果 要 运行 全 部 测试 ， 可 以 使 用 如 下 的 命令 : 


$ cd /usr/share/mysql/sql-bench/ 

sql-bench$ ./run-all-tests --server=mysql --user=root --log 
--fast 

Test finished. You can find the result in: 


output/RUN-mysql_ fast-Linux_2.4.18 686_smp_i686 


运行 全 部 测试 需要 比较 长 的 时 间 ， 有 可 能 会 超过 一 个 小 时 ， 其 具 
体 长 短 依赖 于 测试 的 硬件 环境 和 配置 。 如 果 指 定 了 --log 命 令 行 ， 则 可 
以 监控 到 测试 的 进度 。 测 试 的 结果 都 保存 在 output 子 目录 中 ， 每 项 测 
试 的 结果 文件 中 都 会 包含 一 系列 的 操作 计时 信息 。 下 面 是 一 个 具体 的 
例子 ， 为 方便 印刷 ， 部 分 格式 做 了 修改 。 


sql-bench$ tail =5 output/select-mysql_fast- 
Linux_2.4.18 686_smp_i1686 
Time for count_distinct_group_on_key (1000:6000): 
34 wallclock secs ( 0.20 usr 0.08 sys + 0.00 cusr 0.00 
csys = 0.28 CPU) 
Time for count_distinct_group_on_key_parts (1000:100000): 
34 wallclock secs ( 0.57 usr 0.27 sys + 0.00 cusr 0.00 
csys = 0.84 CPU) 
Time for count_distinct_group (1000:100000): 
34 wallclock secs ( 0.59 usr 0.20 sys + 0.00 cusr 0.00 
csys = 0.79 CPU) 
Time for count_distinct_big (100:1000000): 
8 wallclock secs ( 4.22 usr 2.20 sys + 0.00 cusr 0.00 
csys = 6.42 CPU) 
Total time: 
868 wallclock secs (33.24 usr 9.55 sys + 0.00 cusr 0.00 
csys = 42.79 CPU) 


a0 _E FA, count_distinct_group_on_key (1000:6000) 测试 花费 了 
34%) (wallclock secs) ， 这 是 客户 端 运 行 测试 花费 的 总 时 间 ; 其 他 值 
(包括 usr，sys，cursr，csys) 则 占 了 测试 的 0.28 秒 的 开销 ， 这 是 运行 
客户 端 测试 代码 所 花费 的 时 间 ， 而 不 是 等 待 MySQL 服 务 器 响应 的 时 
间 。 而 测试 者 真正 需要 关心 的 测试 结果 ， 是 除去 客户 端 控制 的 部 分 ， 
即 实际 运行 时 间 应 该 是 33.72 秒 。 


除了 运行 全 部 测试 集 外 ， 也 可 以 选择 单独 执行 其 中 的 部 分 测试 
项 。 例 如 可 以 选择 只 执行 


insert 测 试 ， 这 会 比 运行 全 部 测试 集 所 得 到 的 汇总 信息 给 出 更 多 的 
详细 信息 : 


sql-bench$ ./test-insert 


Testing server 'MySQL 4.0.13 log' at 2003-05-18 11:02:39 


Testing the speed of inserting data into 1 table and do 


some selects on it. 


The tests are done with a table that has 100000 rows. 


Generating random keys 
Creating tables 
Inserting 100000 rows in order 
Inserting 100000 rows in reverse order 
Inserting 100000 rows in random order 
Time for insert (300000): 
42 wallclock secs ( 7.91 usr 5.03 sys + 0.00 cusr 0.00 
csys = 12.94 CPU) 
Testing insert of duplicates 
Time for insert_duplicates (100000): 
16 wallclock secs ( 2.28 usr 1.89 sys + 0.00 cusr 0.00 
csys = 4.17 CPU) 


2.5.3 sysbench 


sysbench 可 以 执行 多 种 类 型 的 基准 测试 ， 它 不 仅 设 计 用 来 测试 数 
据 库 的 性 能 ， 也 可 以 测试 运行 数据 库 的 服务 器 的 性 能 。 实 际 上 ，Peter 
和 Vadim 最 初 设计 这 个 工具 是 用 来 执行 MySQL 性 能 测试 的 (尽管 并 不 
能 完成 所 有 的 MySQL 基 准 测 试 ) 。 下 面 先 演示 一 些 非 MySQL 的 测试 

景 ， 来 测试 各 个 子 系统 的 性 能 ， 这 些 测试 可 以 用 来 评估 系统 的 整体 
性 能 瓶颈 。 后 面 再 演示 如 何 测试 数据 库 的 性 能 。 


强烈 建议 大 家 都 能 熟悉 sysbench 测 试 ， 在 MySQL 用 户 的 工具 包 
中 ， 这 应 该 是 最 有 用 的 工具 之 一 。 尽 管 有 其 他 很 多 测试 工具 可 以 替代 
sysbench 的 某 些 功 能 ， 但 那些 工具 有 时 候 并 不 可 靠 ， 获 得 的 结果 也 不 
一 定 和 MySQL 性 能 相关 。 例 如 ，LIO 性 能 测试 可 以 用 iozone、 
bonnie++ 等 一 系列 工具 ， 但 需要 注意 设计 场景 ， 以 便 可 以 模拟 InnoDB 
的 磁盘 IO 模式 。 而 sysbench 的 IO 测试 则 和 InnoDB 的 IO 模式 非常 类 
似 ， 所 以 fleio 选 项 是 非常 好 用 的 。 


sysbench 的 CPU 基准 测试 


最 典型 的 子 系统 测试 就 是 CPU 基准 测试 。 该 测试 使 用 64 位 整数 ， 
测试 计算 素数 直到 某 个 最 大 值 所 需要 的 时 间 。 下 面 的 例子 将 比较 两 台 
不 同 的 GNU/Linux 服 务 器 上 的 测试 结果 。 第 一 台 机 器 的 CPU 配置 如 
下 : 


[server1 ~]$ cat /proc/cpuinfo 


121. 


model name : AMD Opteron(tm) Processor 246 
stepping : 1 
cpu MHz : 1992.857 


cache size : 1024 KB 


在 这 人 台 服 务 器 上 运行 如 下 的 测试 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary: total time: 
7404s 
第 二 台 服 务 器 配置 了 不 同 的 CPU : 
[server2 ~]$ cat /proc/cpuinfo 
model name : Intel(R) Xeon(R) CPU 5130 @ 2.00GHZ 
stepping : 6 
cpu MHz : 1995.005 
测试 结果 如 下 : 


[server1 ~]$ sysbench --test=cpu --cpu-max-prime=20000 run 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Test execution summary: total time: 61.8596s 


测试 的 结果 简单 打印 出 了 计算 出 素数 的 时 间 ， 很 容易 进行 比较 。 
在 上 面 的 测试 中 ， 第 二 人 台 服 务 器 的 测试 结果 显示 比 第 一 台 快 两 倍 。 


sysbench 的 文件 IO 基准 测试 


文件 W/O (fileio) 基准 测试 可 以 测试 系统 在 不 同 WO 负 载 下 的 性 
能 。 这 对 于 比较 不 同 的 硬盘 驱动 器 、 不 同 的 RAID 卡 、 不 同 的 RAID 模 
式 ， 都 很 有 帮助 。 可 以 根据 测试 结果 来 调整 WO 子 系统 。 文 件 1/O 基 准 
测试 模拟 了 很 多 InnoDB 的 1/O 特 性 。 


测试 的 第 一 步 是 准备 (prepare) 阶段 ， 生 成 测试 用 到 的 数据 文 
件 ， 生 成 的 数据 文件 至 少 要 比 内 存 大 。 如 果 文 件 中 的 数据 能 完全 放 入 
内 存 中 ， 则 操作 系统 缓存 大 部 分 的 数据 ， 导 致 测试 结果 无 法 体现 IO 密 
集 型 的 工作 负载 。 首 先 通过 下 面 的 命令 创建 一 个 数据 集 : 


$ sysbench --test=fileio --file-total-size=150G prepare 

这 个 命令 会 在 当前 工作 目录 下 创建 测试 文件 ， 后 续 的 运行 (run) 
阶段 将 通过 读 写 这 些 文件 进行 测试 。 第 二 步 就 是 运行 (run) 阶段 ， 针 
对 不 同 的 VO 类 型 有 不 同 的 测试 选项 : 
Seqwr 


顺序 写 入 。 


seqrewr 


顺序 重 写 。 
seqrd 

顺序 读 取 。 
rndrd 

随机 读 取 。 
rndwr 

随机 写 入 。 
rdnrw 

瘟 合 随机 读 / 写 。 


下 面 的 命令 运行 文件 /0 混合 随 机 读 / 瑟 基准 测试 : 


$ sysbench --test=fileio --file-total-size=150G --file- 
test -mode=rndrw/ 


- -init - rng=on - -max- time=300 - -max-requests=0 run 


结果 如 下 : 


sysbench v0.4.8: multithreaded system evaluation benchmark 


Running the test with following options: 
Number of threads: 1 


Initializing random number generator from timer. 


Extra file open flags: 0 

128 files, 1.1719Gb each 

150Gb total file size 

Block size 16Kb 

Number of random requests for random IO: 10000 
Read/Write ratio for combined random IO test: 1.50 
Periodic FSYNC enabled, calling fsync() each 100 requests. 
Calling fsync() at the end of test, Enabled. 

Using synchronous I/0 mode 

Doing random r/w test 

Threads started! 

Time limit exceeded, exiting... 


Done. 


Operations performed: 40260 Read, 26840 Write, 85785 Other 
= 152885 Total 

Read 629.06Mb Written 419.38Mb Total transferred 1.0239Gb 
(3.4948Mb/sec) 


223.67 Requests/sec executed 


Test execution summary: 


total time: 300.0004s 


total number of events: 67100 
total time taken by event execution: 254.4601 


per-request statistics: 


min: 0.0000s 
avg: 0.0038s 
max: 0.5628s 
approx. 95 percentile: 0.0099s 


Threads fairness: 
events (avg/stddev): 67100.0000/0.00 


execution time (avg/stddev): 254.4601/0.00 


输出 结果 中 包含 了 大 量 的 信息 。 和 IO 子 系统 密切 相关 的 包括 每 秒 
请 求 数 和 总 吞吐 量 。 在 上 述 例 子 中 ， 每 秒 请 求 数 是 223.67 
Requests/sec， 吞 吐 量 是 3.4948MB/sec。 另 外 ， 时 间 信 息 也 非常 有 用 ， 
尤其 是 大 约 95% 的 时 间 分 布 。 这 些 数据 对 于 评估 磁盘 性 能 十 分 有 用 。 


测试 完成 后 ， 运 行 清除 (cleanup) 操作 删除 第 一 步 生 成 的 测试 文 
件 : 


$ sysbench --test=fileio --file-total-size=150G cleanup 


sysbenchHJOLTP2s/E min 


OLTP 基 准 测 试 模拟 了 一 个 简单 的 事务 处 理 系统 的 工作 负载 。 下 面 
的 例子 使 用 的 是 一 张 超过 百 万 行 记录 的 表 ， 第 一 步 是 先生 成 这 张 表 : 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql- 
db=test/ 
--mysql-user=root prepare 


sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 
Creating table 'sbtest'... 


Creating 1000000 records in table 'sbtest'... 


生成 测试 数据 只 需要 上 面 这 条 简单 的 命令 即 可 。 接 下 来 可 以 运行 
测试 ， 这 个 例子 采用 了 8 个 并 发 线程 ， 只 读 模 式 ， 测 试 时 长 60 秒 : 


$ sysbench --test=oltp --oltp-table-size=1000000 --mysql- 
db=test --mysql-user=root/ 

--max-time=60 --oltp-read-only=on --max-requests=0 --num- 
threads=8 run 


sysbench v0.4.8: multithreaded system evaluation benchmark 


No DB drivers specified, using mysql 
WARNING: Preparing of "BEGIN" is unsupported, using 
emulation 
(last message repeated 7 times) 
Running the test with following options: 


Number of threads: 8 


are 


per 


sec. 


per 


per 


Doing OLTP test. 
Running mixed OLTP test 


Doing read-only test 


Using Special distribution (12 iterations, 


returned in 75 pct 


cases) 


Using "BEGIN" for starting transactions 


Using auto_inc on the id column 


Threads started! 


Time limit exceeded, exiting... 


(last message repeated 7 times) 


Done. 


OLTP test statistics: 
queries performed: 
read: 
write: 
other: 
total: 
transactions: 
sec.) 


deadlocks: 


read/write requests: 


sec.) 
other operations: 


sec.) 


1 pct of values 


179606 
0 
25658 
205264 
12829 (213.07 


0 (0.00 per 


179606 (2982.92 


25658 (426.13 


Test execution summary: 


total time: 60.2114s 
total number of events: 12829 
total time taken by event execution: 480.2086 


per-request statistics: 


min: 0.0030s 
avg: 0.0374s 
max: 1.9106s 
approx. 95 percentile: 0.1163s 


Threads fairness: 
events (avg/stddev): 1603 .6250/70.66 


execution time (avg/stddev): 60.0261/0.06 


如 上 所 示 ， 结 果 中 包含 了 相当 多 的 信息 。 其 中 最 有 价值 的 信息 如 


总 的 事务 数 。 

每 秒 事务 数 。 

时 间 统 计 信 息 最小、 平均、 最 大 响应 时 间 ， 以 及 95% 百 分 比 响 
应 时 间 ) 。 

线程 公平 性 统计 信息 (thread-faimess) ， 用 于 表示 模拟 负载 的 公 
平 性 。 


这 个 例子 使 用 的 是 sysbench 的 第 4 版 ， 在 SourceForge.net 可 以 下 载 


到 这 个 版 本 的 编译 好 的 可 执行 文件 。 也 可 以 从 Launchpad 下 载 最 新 的 第 
5 版 的 源 代码 自行 编译 《这 是 一 件 简单 、 有 用 的 事情 ) ， 这 样 就 可 以 利 
用 很 多 新 版 本 的 特性 ， 包 括 可 以 基于 多 个 表 而 不 是 单个 表 进 行 测 试 ， 


可 以 每 隔 一 定 的 间隔 比如 10 秒 打印 出 吞吐 量 和 响应 的 结果 。 这 些 指标 
对 于 理解 系统 的 行为 非常 重要 。 


sysbench 的 其 他 特性 


sysbench 还 有 一 些 其 他 的 基准 测试 ， 但 和 数据 库 性 能 没有 直接 关 
系 。 


memory 内 存 (memory) 
测试 内 存 的 连续 读 写 性 能 。 
线程 (thread) 


测试 线程 调度 器 的 性 能 。 对 于 高 负载 情况 下 测试 线程 调度 器 
的 行为 非常 有 用 。 


互 斥 锁 (mutex) 
测试 互 斥 锁 (mutex) 的 性 能 ,方式 是 模拟 所 有 线程 在 同一 时 
刻 并 发 运行 ， 并 都 短暂 请 求 互 斥 锁 〈 互 斥 锁 mutex 是 一 种 数据 结 
构 ， 用 来 对 某 些 资源 进行 排他 性 访问 控制 ， 防 止 因 并 发 访问 导致 


问题 ) 。 
顺序 写 (seqwr) 


测试 顺序 写 的 性 能 。 这 对 于 测试 系统 的 实际 性 能 瓶颈 很 重 
要 。 可 以 用 来 测试 RAID 控 制 器 的 高 速 组 存 的 性 能 状况 ， 如 果 测 试 


结果 异 音 则 需要 5 起 重视 。 例 如 ， 如 果 RAID 控 制 器 写 缓 存 没 有 电 
池 保 护 ， 而 磁盘 的 压力 达到 了 3000 次 请 求 / 秒 ， 就 是 一 个 问题 ， 数 
据 可 能 是 不 安全 的 。 


另外 ， 除 了 指定 测试 模式 参数 (--test) 外 ，sysbench 还 有 其 他 很 
多 参数 ， 比 如 --num-threads、--max-requests 和 --max-time 参 数 ， 更 多 信 
息 请 查阅 相关 文档 。 


2.5.4 ”数据 库 测 试 套件 中 的 dbt2 TPC- 
cM 


数据 库 测 试 套 件 (Database Test Suite) P 9dbt2 € — F RR 
TPC-CMitLA. TPC-CeTPCAAR AEP MAS, AFRA 
试 复杂 的 在 线 事 务 处 理 系 统 (OLTP) 。 它 的 测试 结果 包括 每 分 钟 事务 
数 (tpmC) ， 以 及 每 事务 的 成 本 (Price/tpmC) 。 这 种 测试 的 结果 非 
常 依赖 硬件 环境 ， 所 以 公开 发 布 的 TPC-C 测 试 结果 都 会 包含 具体 的 系 
统 硬件 配置 信息 。 


Na 


a db2 并 不 是 真正 的 TPC-C 测 试 ， 它 没有 得 到 TPC 组 织 的 认证 ， 它 的 结果 不 能 直接 归 
TPC-C 的 结果 做 对 比 。 而 且 本 书 作者 开发 了 一 款 比 dbt2 更 好 的 测试 工具 ， 详 细 情 况 见 2.5.5 节 。 

下 面 看 一 个 设置 和 运行 dbt2 基 准 测试 的 例子 。 这 里 使 用 的 是 dbt2 
0.37 版 本 ， 这 个 版 本 能 够 支持 MySQL 的 最 新 版 本 (还 有 更 新 的 版 本 ， 
但 包含 了 一 些 MySQL 不 能 提供 完全 支持 的 修正 ) 。 下 面 是 测试 步骤 。 


1. 准备 测试 数据 。 
下 面 的 命令 会 在 指定 的 目录 创建 用 于 10 个 仓库 的 数据 。 每 个 仓 


库 使 用 大 约 700MB 磁 盘 空 间 ， 测 试 所 需要 的 总 的 磁盘 空间 和 
仓库 的 数量 成 正比 。 因 此 ， 可 以 通过 -w 参 数 来 调整 仓库 的 个 
数 以 生成 合适 大 小 的 数据 集 。 


# src/datagen -w 10 -d /mnt/data/dbt2-w1i0 
warehouses = 10 

districts = 10 

customers = 3000 

items = 100000 

orders = 3000 

stock = 100000 


new_orders = 900 
Output directory of data files: /mnt/data/dbt2-w10 


Generating data files for 10 warehouse(s)... 
Generating item table data... 

Finished item table data... 

Generating warehouse table data... 

Finished warehouse table data... 


Generating stock table data... 


2. 加 载 数据 到 MySQL 数 据 库 。 
下 面 的 命令 创建 一 个 名 为 dbt2w10 的 数据 库 ， 并 且 将 上 一 步 生 
成 的 测试 数据 加 载 到 数据 库 中 (-d 参 数 指定 数据 库 ，-f 参 数 指 
定 测试 数据 所 在 的 目录 ) o 


# scripts/mysql/mysql load db.sh -d 


/mnt/data/dbt2-w10/ 


-S /var/1ib/mysgl1/mysql.sock 


Bs 


运行 测试 。 
最 后 一 步 是 运行 scripts 脚 本 目录 中 的 如 下 命令 执行 测试 : 


# run_mysql.sh -c 10 -w 10 -t 300 -n dbt2w10/ 


-u root -o /var/lib/mysql/mysql.sock-e 
Jeo SOS OEE OR OSI CEO EE RIG ES SAGE CSO E CSE Ek I AEA 


* DBT2 test for MySQL started * 
* * 
= Results can be found in output/9 directory * 


BOSSES CESSES AACA AA AAR AAR AAR BAKA AK FAK 


Test consists of 4 stages: 


. Start of client to create pool of databases connections 

. Start of driver to emulate terminals and transactions generation 
. Test 

. Processing of results 


PWN PR 
eee eH HH HEH 


et O HHH e 


AER AK A A AK A A A OK HK EA KR AK A A A AK A KO HK A AK AR A A KO A ROK AK KK OK OK KOK kk 


DATABASE NAME: dbt2w10 

DATABASE USER: root 

DATABASE SOCKET: /var/lib/mysql/mysql.sock 
DATABASE CONNECTIONS: 10 

TERMINAL THREADS: 100 

SCALE FACTOR(WARHOUSES) : 10 

TERMINALS PER WAREHOUSE: 10 

DURATION OF TEST(in sec): 300 


SLEEPY in (msec) 300 


dbt2w10 


-f 


ZERO DELAYS MODE: 1 


Stage 1. Starting up client... 

Delay for each thread - 300 msec. Will sleep for 4 sec to start 10 database 
connections 

CLIENT PID = 12962 


Stage 2. Starting up driver... 

Delay for each thread - 300 msec. Will sleep for 34 sec to start 100 terminal 
threads 

All threads has spawned successfuly. 


Stage 3. Starting of the test. Duration of the test 300 sec 
Stage 4. Processing of results... 


Shutdown clients. Send TERM signal to 12962. 
Response Time (s) 


Transaction % Average : 90th % Total Rollbacks % 
Delivery 3.53 2.224 : 3.059 1603 0 0.00 
New Order 41.24 0.659 : 1.175 18742 172 0.92 
Order Status 3.86 0.684 : 1.228 1756 0 0.00 
Payment 39.23 0.644 : 1.161 17827 0 0.00 
Stock Level 3.59 0.652 : 1.147 1630 0 0.00 


3396.95 new-order transactions per minute (NOTPM) 
5.5 minute duration 

0 total unknown errors 

31 second(s) ramping up 


最 重要 的 结果 是 输出 信息 中 末尾 处 的 一 行 : 


3396.95 new-order transactions per minute (NOTPM) 


这 里 显示 了 系统 每 分 钟 可 以 处 理 的 最 大 事务 数 ， 越 大 越 好 (new- 
order 并 非 一 种 事务 类 型 的 专用 术语 ， 它 只 是 表明 测试 是 模拟 用 户 在 假 
想 的 电子 商务 网 站 下 的 新 订单 ) 。 


通过 修改 某 些 参数 可 以 定制 不 同 的 基准 测试 。 


到 数据 库 的 连接 数 。 修 改 该 参数 可 以 模拟 不 同 程度 的 并 发 
性 ， 以 测试 系统 的 可 扩展 性 。 =e 


RAFIR (zero-delay) 模式 ， 这 意味 着 在 不 同 查询 之 间 没 
有 时 间 延 迟 。 这 可 以 对 数据 库 施 加 更 大 的 压力 ， 但 不 符合 真实 情 
况 。 因 为 真实 的 用 户 在 执行 一 个 新 查询 前 总 需要 一 个 “思考 时 间 
(think time) ”。 


基准 测试 的 持续 时 间 。 这 个 参数 应 该 精心 设置 ， 否 则 可 能 导 
致 测试 的 结果 是 无 意义 的 。 对 于 IO 密集 型 的 基准 测试 ， 太 短 的 持 
续 时 间 会 导致 错误 的 结果 ， 因 为 系统 可 能 还 没有 足够 的 时 间 对 组 


设置 得 太 长 ; 否则 生成 的 数据 量 过 大 ， 可 能 转变 成 JO 密 集 型 。 


这 种 基准 测试 的 结果 ， 可 以 比 单纯 的 性 能 测试 提供 更 多 的 信息 。 
例如 ， 如 果 发 现 测 试 有 很 多 的 回 滚 现 象 ， 那 么 就 可 以 判定 很 可 能 什么 
地 方 出 现 错误 了 。 


2.5.5 ”Percona 的 TPCC-MySQL 测 试 
工具 


尽管 sysbench 的 测试 很 简单 ， 并 且 结 果 也 具有 可 比 性 ， 但 毕竟 无 
法 模拟 真实 的 业务 压力 。 相 比 而 言 ，TPC-C 测 试 则 能 模拟 真实 压力 。 
2.5.4 节 谈 到 的 dbt2 是 TPC-C 的 一 个 很 好 的 实现 ， 但 也 还 有 一 些 不 足 之 
处 。 为 了 满足 很 多 大 型 基准 测试 的 需求 ， 本 书 的 作者 重新 开发 了 一 款 
新 的 类 TPC-C 测 试 工具 ， 代 码 放 在 Launchpad 上 ， 可 以 通过 如 下 地 址 获 


HY: https://code.launchpad.net/~percona-dev/perconatools/tpcc-mysql, #Ħ 
中 包含 了 一 个 README 文 件 说 明了 如 何 编译 。 该 工具 使 用 很 简单 ， 但 
测试 数据 中 的 仓库 数量 很 多 ， 可 能 需要 用 到 其 中 的 并 行 数 据 加 载 工 具 
来 加 快 准备 测试 数据 集 的 速度 ， 否 则 这 一 步 会 花费 很 长 时 间 。 


使 用 这 个 测试 工具 ， 需 要 创建 数据 库 和 表 结 构 、 加 载 数 据 、 执 行 
测试 三 个 步骤 。 数 据 库 和 表 结构 通过 包含 在 源码 中 的 SQL 脚 本 创建 。 
加 载 数据 通过 用 C 写 的 tpcc_load 工 具 完 成 ， 该 工具 需要 自行 编译 。 加 
载 数 据 需 要 执行 一 段 时 间 ， 并 且 会 产生 大 量 的 输出 信息 (一 般 都 应 该 
将 程序 输出 重 定向 到 文件 中 ， 这 里 尤其 应 该 如 此 ， 否 则 可 能 丢失 滚动 
的 历史 信息 ) 。 下 面 的 例子 显示 了 配置 过 程 ， 创 建 了 一 个 小 型 (五 个 
仓库 ) 的 测试 数据 集 ， 数 据 库 名 为 tpcc5。 


<b>$ ./tpcc_load localhost tpcc5 username p4ssword 5</b> 


火炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


*** ###easy### TPC-C Data Loader *** 
HORROR IIR IORI TOR ATOR ATOR ARERR REE 
<Parameters> 
[server]: localhost 
[port]: 3306 
[DBname]: tpcc5 
[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
TPCC Data Load Started... 


Loading Item 


[output snipped for brevity] 


Loading Orders for D=10, W= 5 


Orders Done. 


, ,DATA LOADING COMPLETED SUCCESSFULLY. 


然后 ， 使 用 tpcc_start 工 具 开 始 执行 基准 测试 。 其 同样 会 产生 很 多 
输出 信息 ， 还 是 建议 重 定向 到 文件 中 。 下 面 是 一 个 简单 的 示例 ， 使 用 
五 个 线程 操作 五 个 仓库 ，30 秒 预 热 时 间 ，30 秒 测试 时 间 : 


$ ./tpcc_start localhost tpcc5 username p4ssword 5 5 30 30 


火炎 大 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


*** ###easy### TPC-C Load Generator *** 
ROR RIOR TOR ATOR ATOR RIOR RIOR AR A 
<Parameters> 

[server]: localhost 

[port]: 3306 


[DBname]: tpcc5 


[user]: username 
[pass]: p4ssword 
[warehouse]: 5 
[connection]: 5 
[rampup]: 30 (sec. ) 


[measure]: 30 (sec. ) 


RAMP-UP TIME.(30 sec.) 


MEASURING START. 


10, 63(0):0.40, 63(0):0.42, 7(0):0.76, 6(0):2.60, 6(0):0.17 


20, 75(0):0.40, 74(0):0.62, 7(0):0.04, 9(@):2.38, 7(0):0.75 


30, 83(0):0.22, 84(0):0.37, 9(0):0.04, 7(@):1.97, 9(0):0.80 


STOPPING THREADS..... 


<RT Histogram> 


1.New-Order 


2.Payment 


3.Order-Status 


4.Delivery 


5.Stock-Level 


<90th Percentile RT (MaxRT)> 


New-Order : 0.37 (1.10) 


Payment : 0.47 (1.24) 
Order-Status : 0.06 (0.96) 
Delivery : 2.43 (2.72) 


Stock-Level : 0.75 (0.79) 


<Raw Results> 
[0] sc:221 1t:0 rt:0 f1:0 
[1] sc:221 1t:0 rt:0 f1:0 
[2] sc:23 1t:0 rt:0 f1:0 
[3] sc:22 1t:0 rt:0 f1:0 
[4] sc:22 1t:0 rt:0 f1:0 


in 30 sec. 


<Raw Results2(sum ver.)> 
[0] sc:221 1t:0 rt:0 f1:0 
[1] sc:221 1t:0 rt:0 f1:0 
[2] sc:23 1t:0 rt:0 f1:0 
[3] sc:22 1t:0 rt:0 f1:0 
[4] sc:22 1t:0 rt:0 fl:0 


<Constraint Check> (all must be [OK]) 
[transaction percentage | 
Payment: 43.42% (>=43.0%) [OK] 
Order-Status: 4.52% (>= 4.0%) [OK] 
Delivery: 4.32% (>= 4.0%) [OK] 
Stock-Level: 4.32% (>= 4.0%) [OK] 


[response time (at least 90% passed) ] 


New-Order: 100.00% [OK] 
Payment: 100.00% [OK] 
Order-Status: 100.00% [OK] 
Delivery: 100.00% [OK] 


Stock-Level: 100.00% [OK] 


<Tpmc> 
442.000 Tpmc 


最 后 一 行 就 是 测试 的 结果 : 每 分 钟 执行 完 的 事务 数 ( 帆 。 如 果 紧 挨 
着 最 后 一 行 前 发 现 有 异常 结果 输出 ， 比 如 有 关于 约束 检查 的 信息 ， 那 
么 可 以 检查 一 下 响应 时 间 的 直方 图 ， 或 者 通过 其 他 详细 输出 信息 寻找 
线索 。 当 然 ， 最 好 是 能 使 用 本 章 前 面 提 到 的 一 些 脚本 ， 这 样 就 可 以 很 
容易 获得 测试 执行 期 间 的 详细 的 诊断 数据 和 性 能 数据 。 


26 BS 


每 个 MySQL 的 使 用 者 都 应 该 了 解 一 些 基 准 测试 的 知识 。 基 准 测试 
不 仅仅 是 用 来 解决 业务 问题 的 一 种 实践 行动 ， 也 是 一 种 很 好 的 学 习 方 
法 。 学 习 如 何 将 问题 分 解 成 可 以 通过 基准 测试 来 获得 答案 的 方法 ， 就 
和 在 数学 课 上 从 文字 题目 中 推导 出 方程 式 一 样 。 首 先 正确 地 描述 问 
题 ， 之 后 选择 合适 的 基准 测试 来 回答 问题 ， 设 置 基准 测试 的 持续 时 间 
和 人 参数， 运行 测试 ， 收 集 数据 ， 分 析 结 果 数 据 ， 这 一 系列 的 训练 可 以 
帮助 你 成 为 更 好 的 MySQL 用 户 。 


如 果 你 还 没有 做 过 基准 测试 ， 那 么 建议 至 少 要 熟悉 sysbench。 可 
以 先 学 习 如 何 使 用 oltp 和 fileio 测 试 。oltp 基 准 测试 可 以 很 方便 地 比较 不 


同系 统 的 性 能 。 另 一 方面 ， 文 件 系统 和 磁盘 基准 测试 ， 则 可 以 在 系统 
出 现 问题 时 有 效 地 诊断 和 隔离 异常 的 组 件 。 通 过 这 样 的 基准 测试 ， 我 
们 多 次 发 现 了 一 些 数据 库 管 理 员 的 说 法 存在 问题 ， 比 如 SAN 人 存储 真 的 
出 现 了 一 块 坏 盘 ， 或 者 RAID 控 制 器 的 缓存 策略 的 配置 并 不 是 像 工具 中 
显示 的 那样 。 通 过 对 单 块 磁盘 进行 基准 测试 ， 如 果 发 现 每 秒 可 以 执行 
14000 次 随机 读 ， 那 要 么 是 磁 到 了 严重 的 错误 ， 要 么 是 配置 出 现 了 问题 


(12)。 


如 果 经 党 执行 基准 测试 ， 那 么 制定 一 些 原则 是 很 有 必要 的 。 选 择 
一 些 合适 的 测试 工具 并 深入 地 学 习 。 可 以 建立 一 个 脚本 库 ， 用 于 配置 
基准 测试 ， 收 集 输出 结果 、 系 统 性 能 和 状态 信息 ， 以 及 分 析 结 果 。 使 
用 一 种 熟练 的 绘图 工具 如 gnuplot 或 者 R (不 用 浪费 时 间 使 用 电子 表 
格 ， 它 们 既 笨 重 ， 速 度 又 慢 ) 。 尽 量 早 和 多 地 使 用 绘图 的 方式 ， 来 发 
现 基 准 测 试 和 系统 中 的 问题 和 错误 。 你 的 眼睛 是 比 任何 脚本 和 自动 化 
工具 都 更 有 效 的 发 现 问题 的 工具 。 


(1) 特别 是 一 些 论坛 软件 ， 已 经 让 很 多 管理 员 错 误 地 相信 同时 有 成 千 上 万 的 用 户 正 在 同时 
访问 网 站 。 

(2) Justin Bieber， 我 们 爱 你 。 这 只 是 开 个 玩笑 。 

(3) 当然 ， 做 这 么 多 的 前 提 是 希望 获得 完美 的 基准 测试 结果 ， 实 际 情况 通常 不 会 很 顺利 。 

(4 顺便 说 一 下 ， 写 WO 的 活动 图 展示 的 性 能 非常 差 。 这 个 系统 的 稳定 状态 从 性 能 上 来 说 
是 一 种 灾难 。 已 经 达到 “稳定 ?可 以 说 是 笑话 ， 不 过 这 里 我 们 的 重点 在 于 说 明 系 统 的 长 期 行 
为 。 

(5) 关于 pt-diskstats 工 具 的 更 多 信息 ， 请 参考 第 9 章 。 


(6) 有 时 ， 这 并 不 是 问题 。 例 如 ， 如 果 正 在 考虑 从 基于 SPARC 的 Solaris 系 统 迁移 到 基于 
x86 的 GNU/Linux 系 统 ， 就 没有 必要 测试 基于 x86 的 Solaris 作 为 中 间 过 程 。 


D 本 书 的 任何 一 位 作者 都 还 没 发 生 过 这 样 的 事情 ， 仅 供 人 参考 。 


(8) 如 果真 的 需要 科学 可 靠 的 结果 ， 应 该 去 读 读 关于 如 何 设计 和 执行 可 控 测 试 的 书籍 ， 这 
个 已 经 超出 了 本 书 讨论 的 范畴 。 

(9) 英语 中 plot 既 有 “阴谋 ”的 意思 ， 也 有 “绘图 ”的 意思 ， 所 以 这 里 是 一 句 双关 语 。 
者 注 

(10) 本 书 作者 之 一 磁 到 了 这 个 问题 ， 因 为 发 现 循环 执行 1000 次 表达 式 和 只 执行 一 次 表达 
式 的 时 间 居 然 差不多 ， 这 只 能 说 明 缓 存 命中 了 。 实 际 上 ， 当 碰 到 此 类 情况 时 ， 第 一 反应 就 应 
当 是 缓存 命中 或 者 出 错 了 。 

(11) 我 们 是 在 笔记 本 电脑 上 运行 这 个 基准 测试 的 ， 这 只 是 作为 演示 用 的 。 真 实 服务 器 的 
速度 肯定 比 这 快 得 多 。 


(12) 一块 机 械 磁 盘 每 秒 只 能 执行 几 百 次 的 随机 读 操作 ， 因 为 寻 道 操作 是 需要 时 间 的 。 


译 


第 3 章 ”服务 器 性 能 剖析 


在 我 们 的 反 术 咨询 生涯 中 ， 最 单 健 到 的 三 个 性 能 相 天 的 服务 请 
E: 如 何 确认 服务 器 是 否 达到 了 性 能 最 住 的 状态 、 找 出 某 条 语句 为 什 
么 执行 不 够 快 ， 以 及 诊断 被 用 户 描 述 成 “停顿 、“ 推 积 ?或 者 “ 卡 死 ”的 
某 些 间歇 性 疑难 故障 。 本 章 将 主要 针对 这 三 个 问题 做 出 解答 。 我 们 将 
提供 一 些 工具 和 技巧 来 优化 整 机 的 性 能 、 优 化 单条 语句 的 执行 速度 ， 
以 及 诊断 或 者 解决 那些 很 难 观察 到 的 问题 (这 些 问 题 用 户 往 往 很 难 知 
道 其 根源 ， 有 了 时候 甚 至 都 很 难 察觉 到 它 的 存在 ) o 


这 看 起 来 是 个 艰巨 的 任务 ， 但 是 事实 证 明 ， 有 一 个 简单 的 方法 能 
够 从 噪声 中 发 现 苗 头 。 这 个 方法 就 是 专注 于 测量 服务 器 的 时 间 人 花费 在 
哪里 ， 使 用 的 技术 则 是 性 能 剖析 (profiling) 。 在 本 章 ， 我 们 将 展示 如 
何 测 量 系统 并 生成 剖析 报告 ， 以 及 如 何 分 析 系 统 的 整个 堆栈 
(stack) ， 包 括 从 应 用 程序 到 数据 库 服务 器 到 单个 查询 。 


首先 我 们 要 保持 空 杯 精 神 ， 抛 弃 掉 一 些 关 于 性 能 的 常见 的 误解 。 
这 有 一 定 的 难度 ， 下 面 我 们 一 起 通过 一 些 例子 来 说 明 问 题 在 哪里 。 


3.1 性 能 优化 简介 


问 10 个 人 关于 性 能 的 问题 ， 可 能 会 得 到 10 个 不 同 的 回答 ， 比 如 “每 
秒 查 询 次 数 "、“CPU 利 用 率 ” “可 扩展 性 ”之 类 。 这 其 实 也 没有 问题 ， 
每 个 人 在 不 同 场景 下 对 性 能 有 不 同 的 理解 ， 但 本 章 将 给 性 能 一 个 正式 
的 定义 。 我 们 将 性 能 定义 为 完成 某 件 任务 所 需要 的 时 间 度 量 ， 换 句 话 
说 ， 性 能 即 响应 时 间 ， 这 是 一 个 非常 重要 的 原则 。 我 们 通过 任务 和 时 


间 而 不 是 资源 来 测量 性 能 。 数 据 库 服 务 器 的 目的 是 执行 SQL 语句 ， 所 
以 它 关 注 的 任务 是 查询 或 者 语句 ， 如 SELECT、UPDATIE、DELETE 等 
由 。 数 据 库 服务 器 的 性 能 用 查询 的 响应 时 间 来 度量 ， 单 位 是 每 个 查询 
花费 的 时 间 。 


还 有 另外 一 个 问题 : 什么 是 优化 ? 我们 暂时 不 讨论 这 个 问题 ， 而 
是 假设 性 能 优化 就 是 在 一 定 的 工作 负载 下 尽 可 能 地 (降低 响应 时 间 。 


很 多 人 对 此 很 迷茫 。 假 如 你 认为 性 能 优化 是 降低 CPU 利用 率 ， 那 
么 可 以 减少 对 资源 的 使 用 。 但 这 是 一 个 陷阱 ， 资 源 是 用 来 消耗 并 用 来 
工作 的 ， 所 以 有 时 候 消耗 更 多 的 资源 能 够 加 快 查询 速度 。 很 多 时 候 将 
使 用 老 版 本 InnoDB3 引 | 擎 的 MySQL 升 级 到 新 版 本 后 ，CPU 利 用 率 会 上 升 
得 很 厉害 ， 这 并 不 代表 性 能 出 现 了 问题 ， 反 而 说 明 新 版 本 的 InnoDB 对 
资源 的 利用 率 上 升 了 。 查 询 的 响应 时 间 则 更 能 体现 升级 后 的 性 能 是 不 
是 变 得 更 好 。 版 本 升级 有 时 候 会 带 来 一 些 bug， 比 如 不 能 利用 某 些 索引 
从 而 导致 CPU 利用 率 上 升 。CPU 利 用 率 只 是 一 种 现象 ， 而 不 是 很 好 的 
可 度量 的 目标 。 


同样 ， 如 果 把 性 能 优化 仅仅 看 成 是 提升 每 秒 查 询 量 ， 这 其 实 只 是 
吞吐 量 优化 。 吞 吐 量 的 提升 可 以 看 作 性 能 优化 的 副产品 8。 对 查询 的 
优化 可 以 让 服务 器 每 秒 执行 更 多 的 查询 ， 因 为 每 条 查询 执行 的 时 间 更 
MS (吞吐 量 的 定义 是 单位 时 间 内 的 查询 数量 ， 这 正好 是 我 们 对 性 能 
的 定义 的 倒数 ) 。 


所 以 如 果 目 标 是 降低 响应 时 间 ， 那 么 就 需要 理解 为 什么 服务 器 执 
行 查询 需要 这 么 多 时 间 ， 然 后 去 减少 或 者 消除 那些 对 获得 查询 结果 来 
说 不 必要 的 工作 。 也 就 是 说 ， 先 要 搞 清 楚 时 间 花 在 哪里 。 这 就 引申 出 


优化 的 第 二 个 原则 : 无 法 测量 就 无 法 有 效 地 优化 。 所 以 第 一 步 应 该 测 
量 时 间 伦 在 什么 地 方 。 


我 们 观察 到 ， 很 多 人 在 优化 时 ， 都 将 精力 放 在 修改 一 些 东 西 上 ， 
却 很 少 去 进行 精确 的 测量 。 我 们 的 做 法 完全 相反 ， 将 人 花费 非常 多 ， 甚 
至 90% 的 时 间 来 测量 响应 时 间 花 在 哪里 。 如 果 通 过 测量 没有 找到 答 
案 ， 那 要 么 是 测量 的 方式 错 了 ， 要 么 是 测量 得 不 够 完整 。 如 果 测 量 了 
系统 中 完整 而 且 正 确 的 数据 ， 性 能 问题 一 般 都 能 暴露 出 来 ， 对 症 下 药 
的 解决 方案 也 就 比较 明了 。 测 量 是 一 项 很 有 挑战 性 的 工作 ， 并 且 分 析 
结果 也 同样 有 挑战 性 ， 测 出 时 间 花 在 哪里 ， 和 知道 为 什么 花 在 那里 ， 
是 两 码 事 。 


前 面 提 到 需要 合适 的 测量 范围 ， 这 是 什么 意思 呢 ? 合适 的 测量 ; 
围 是 说 只 测量 需要 优化 的 活动 。 有 两 种 比较 常见 的 情况 会 导致 不 合适 
的 测量 : 


。 在 错误 的 时 间 局 动 和 停止 测量 。 
。 测量 的 是 聚合 后 的 信息 ， 而 不 是 目标 活动 本 身 。 


例如 ， 一 个 常见 的 错误 是 先 查 看 慢 查 询 ， 然 后 又 去 排查 整个 服务 
器 的 情况 来 判断 问题 在 哪里 。 如 果 确认 有 慢 查 询 ， 那 么 就 应 该 测量 慢 
查询 ， 而 不 是 测量 整个 服务 器 。 测 量 的 应 该 是 从 慢 碍 询 的 开始 到 结束 
的 时 间 ， 而 不 是 查询 之 前 或 查询 之 后 的 时 间 。 


完成 一 项 任务 所 需要 的 时 间 可 以 分 成 两 部 分 : 执行 时 间 和 等 待 时 
间 。 如 果 要 优化 任务 的 执行 时 间 ， 最 好 的 办 法 是 通过 测量 定位 不 同 的 
子 任务 花费 的 时 间 ， 然 后 优化 去 掉 一 些 子 任务 、 降 低 子 任务 的 执行 频 
率 或 者 提升 子 任务 的 效率 。 而 优化 任务 的 等 待 时 间 则 相对 要 复杂 一 


些 ， 因 为 等 待 有 可 能 是 由 其 他 系统 间接 影响 导致 ， 任 务 之 间 也 可 能 
于 争 用 磁盘 或 者 CPU 资源 而 相互 影响 。 根 据 时 间 是 花 在 执行 还 是 等 待 
上 的 不 同 ， 诊 断 也 需要 不 同 的 工具 和 技术 。 


刚才 说 到 需要 定位 和 优化 子 任务 ， 但 只 是 一 笔 带 过 。 一 些 运行 不 
频繁 或 者 很 短 的 子 任务 对 整体 响应 时 间 的 影响 很 小 ， 通 常 可 以 忽略 不 
计 。 那 么 如 何 确认 哪些 子 任务 是 优化 的 目标 呢 ? MSA ee BEB AT 
可 以 派 上 用 场 了 。 


如 何 判断 测量 是 正确 的 ? 


如 果 测 量 是 如 此 重要 ， 那 么 测量 错 了 会 有 什么 后 果 ? 实际 上 ， 
测量 经 常 都 是 错误 的 。 对 数量 的 测量 并 不 等 于 数量 本 身 。 测 量 的 错 
误 可 能 很 小 ， 跟 实际 情况 区 别 不 大 ， 但 错 的 终归 是 错 的 。 所 以 这 个 


问题 其 实 应 该 是 :“ 测 量 到 底 有 多 么 不 准确 ? ”这 个 问题 在 其 他 一 些 
书 中 有 详细 的 讨论 ， 但 不 是 本 书 的 主题 。 但 是 要 意识 到 使 用 的 是 测 
量 数据 ， 而 不 是 其 所 代表 的 实际 数据 。 通 常 来 说 ， 测 量 的 结果 也 可 
能 有 多 种 模糊 的 表现 ， 这 可 能 导致 推断 出 错误 的 结论 。 


3.1.1 ”通过 性 能 剖析 进行 优化 


掌握 并 实践 面向 响应 时 间 的 优化 方法 ， 就 会 发 现 需要 不 断 地 
行 性 能 


= 
对 系统 进行 性 能 剖析 (profiling) 。 


性 能 剖析 是 测量 和 分 析 时 间 花 费 在 哪里 的 主要 方法 。 性 能 剖析 一 
般 有 两 个 步骤 : 测量 任务 所 花费 的 时 间 ; 然后 对 结果 进行 统计 和 排 
序 ， 将 重要 的 任务 排 到 前 面 。 


性 能 剖析 工具 的 工作 方式 基本 相同 。 在 任务 开始 时 局 动 计时 器 ， 
在 任务 结束 时 停止 计时 器 ， 然 后 用 结束 时 间 减 去 启动 时 间 得 到 响应 时 
间 。 也 有 些 工 具 会 记录 任务 的 父 任 务 。 这 些 结果 数据 可 以 用 来 绘制 调 
用 关系 图 ， 但 对 于 我 们 的 目标 来 说 更 重要 的 是 ， 可 以 将 相似 的 任务 分 
组 并 进行 汇总 。 对 相似 的 任务 分 组 并 进行 汇总 可 以 帮助 对 那些 分 到 一 
组 的 任务 做 更 复杂 的 统计 分 析 ， 但 至 少 需要 知道 每 一 组 有 多 少 任务 ， 
并 计算 出 总 的 响应 时 间 。 通 过 性 能 剖析 报告 (profile report) 可 以 获得 
需要 的 结果 。 人 性 能 剖析 报告 会 列 出 所 有 任务 列表 。 每 行 记录 一 个 任 
务 ， 包 括 任务 名 、 任 务 的 执行 时 间 、 任 务 的 消耗 时 间 、 任 务 的 平均 执 
行 时 间 ， 以 及 该 任务 执行 时 间 占 全 部 时 间 的 百分比 。 性 能 剖析 报告 会 
按照 任务 的 消耗 时 间 进 行 降序 排序 。 


为 了 更 好 地 说 明 ， 这 里 举 一 个 对 整个 数据 库 服务 器 工作 负载 的 性 
能 剖析 的 例子 ， 主 要 输出 的 是 各 种 类 型 的 查询 和 执行 查询 的 时 间 。 这 
是 从 整体 的 角度 来 分 析 响 应 时 间 ， 后 面 会 演示 其 他 角度 的 分 析 结 果 。 
下 面 的 输出 是 用 Percona Toolkit 中 的 pt-query-digest (实际 上 就 是 著名 的 
Maatkit 工 具 中 的 mk-query-digest) 分 析 得 到 的 结果 。 为 了 显示 方便 ， 
对 结果 做 了 一 些微 调 ， 并 且 只 截取 了 前 面 几 行 结果 : 


Rank Response time Calls R/Call Item 


1 11256.3618 68.1% 78069 0.1442 SELECT InvitesNew 


2 2029.4730 12.3% 14415 0.1408 SELECT StatusUpdate 


3 1345.3445 8.1% 3520 0.3822 SHOW STATUS 


上 面 只 是 性 能 剖析 结果 的 前 几 行 ， 根 据 总 响应 时 间 进 行 排名 ， 只 
包括 剖析 所 需要 的 最 小 列 组 合 。 每 一 行 都 包括 了 查询 的 响应 时 间 和 占 
总 时 间 的 百分比 、 查 询 的 执行 次 数 、 单 次 执行 的 平均 响应 时 间 ， 以 及 
该 查询 的 摘要 。 通 过 这 个 性 能 剖析 可 以 很 清楚 地 看 到 每 个 查询 相互 之 
间 的 成 本 比较 ， 以 及 每 个 查询 占 总 成 本 的 比较 。 在 这 个 例子 中 ， 任 务 
指 的 就 是 查询 ， 实 际 上 在 分 析 MySQL 的 时 候 经 常 都 指 的 是 查询 。 


我 们 将 实际 地 讨论 两 种 类 型 的 性 能 剖析 : 基于 执行 时 间 的 分 析 和 
基于 等 待 的 分 析 。 基 于 执行 时 间 的 分 析 研 究 的 是 什么 任务 的 执行 时 间 
最 长 ， 而 基于 等 待 的 分 析 则 是 判断 任务 在 什么 地 方 被 阻塞 的 时 间 最 
长 。 


如 果 任务 执行 时 间 长 是 因为 消耗 了 太 多 的 资源 且 大 部 分 时 间 花 费 
在 执行 上 ， 等 待 的 时 间 不 多 ， 这 种 情况 下 基于 等 待 的 分 析 作 用 就 不 
大 。 反 之 亦 然 ， 如 果 任 务 一 直 在 等 待 ， 没 有 消耗 什么 资产， 去 分 析 执 
行 时 间 就 不 会 有 什么 结果 。 如 果 不 能 确认 问题 是 出 在 执行 还 是 等 待 
上 ， 那 么 两 种 方式 都 需要 试 试 。 后 面 会 给 出 详细 的 例子 。 


事实 上 ， 当 基于 执行 时 间 的 分 析 发 现 一 个 任务 需要 花费 太 多 时 间 
的 时 候 ， 应 该 深入 去 分 析 一 下 ， 可 能 会 发 现 某 些 “ 执 行 时 间 ” 实 际 上 是 
在 等 待 。 例 如 ， 上 面 简单 的 性 能 剖析 的 输出 显示 表 InvitesNew 上 的 
SELECT 查询 花费 了 大 量 时 间 ， 如 果 深 入 研究 ， 则 可 能 发 现时 间 都 花 
费 在 等 待 O 完 成 上 。 


在 对 系统 进行 性 能 剖析 前 ， 必 须 先 要 能 够 进行 测量 ， 这 需要 系统 
可 测量 化 的 支持 。 可 测量 的 系统 一 般 会 有 多 个 测量 点 可 以 捕获 并 收集 
数据 ， 但 实际 系统 很 少 可 以 做 到 可 测量 化 。 大 部 分 系统 都 没有 多 少 可 
测量 点 ， 即 使 有 也 只 提供 一 些 活动 的 计数 ， 而 没有 活动 花费 的 时 间 统 
计 。MySQL 就 是 一 个 典型 的 例子 ， 直 到 版 本 5.5 才 第 一 次 提供 了 
Performance Schema， 其 中 有 一 些 基 于 时 间 的 测量 点 由 ， 而 版 本 5.1 及 
之 前 的 版 本 没有 任何 基于 时 间 的 测量 点 。 和 能够 从 MySQL 收 集 到 的 服务 
器 操作 的 数据 大 多 是 show status 计 数 器 的 形式 ， 这 些 计数 器 统计 的 是 
某 种 活动 发 生 的 次 数 。 这 也 是 我 们 最 终 决 定 创 建 Percona Server 的 主要 
RA, Percona Server 从 版 本 5.0 开 始 提 供 很 多 更 详细 的 查询 级 别 的 测量 
点 


JIWNO 


里 然 理想 的 性 能 优化 技术 依赖 于 更 多 的 测量 点 ， 但 幸运 的 是 ， 即 
使 系统 没有 提供 测量 点 ， 也 还 有 其 他 办 法 可 以 展开 优化 工作 。 因 为 还 
可 以 从 外 部 去 测量 系统 ， 如 果 测 量 失败 ， 也 可 以 根据 对 系统 的 了 解 做 
出 一 些 靠 谱 的 猜测 。 但 这 么 做 的 时 候 一 定 要 记 住 ， 不 管 是 外 部 测量 还 
是 猜测 ， 数 据 都 不 是 百分之百 准确 的 ， 这 是 系统 不 透明 所 市 来 的 风 
险 。 

举 个 例子 ， 在 Percona Server 5.0 中 ， 慢 查询 日 志 揭 露 了 一 些 性 能 
低下 的 原因 ， 如 磁盘 IO 等 待 或 者 行 级 锁 等 待 。 如 果 日 志 中 显示 一 条 查 


询 花费 10 秒 ， 其 中 9.6 秒 在 等 待 磁盘 IO ， 那 么 追究 其 他 4% 的 时 间 花 费 
在 哪里 就 没有 意义 ， 磁 盘 IO 才 是 最 重要 的 原因 。 


3.1.2 ”理解 性 能 剖析 


MySQL 的 性 能 剖析 (profile) 将 最 重要 的 任务 展示 在 前 面 ， 但 有 
时 候 没 显示 出 来 的 信息 也 很 重要 。 可 以 参考 一 下 前 面 提 到 过 的 性 能 剖 
析 的 例子 。 不 笠 的 是 ， 尽 管 性 能 剖析 输出 了 排名 、 总 计 和 平均 值 ， 但 
还 是 有 很 多 需要 的 信息 是 缺失 的 ， 如 下 所 示 。 


值得 优化 的 查询 (worthwhile query) 


性 能 剖析 不 会 自动 给 出 哪些 查询 值得 花 时 间 去 优化 。 这 把 我 
们 带 回 到 优化 的 本 意 ， 如 果 你 读 过 Cary Millsap 的 书 ， 对 此 就 会 有 
更 多 的 理解 。 这 里 我 们 要 再 次 强调 两 点 : 第 一 ， 一 些 只 占 总 响应 
时 间 比 重 很 小 的 查询 是 不 值得 优化 的 。 根 据 阿 姆 达尔 定律 
(Amdahls Law) ， 对 一 个 占 总 响应 时 间 不 超过 5% 的 查询 进行 优 
化 ， 无 论 如 何 努 力 ， 收 益 也 不 会 超过 5%。 第 二 ， 如 果 花 费 了 1000 
美元 去 优化 一 个 任务 ， 但 业务 的 收入 没有 任何 增加 ， 那 么 可 以 说 
反而 导致 业务 被 逆 优 化 了 1000 美 元 。 如 果 优 化 的 成 本 大 于 收益 ， 
就 应 当 停 止 优 化 。 


异 帅 情况 
某 些 任务 即使 没有 出 现在 性 能 训 析 输出 的 前 面 也 需要 优化 。 
比如 某 些 任务 执行 次 数 很 少 ， 但 每 次 执行 都 非常 慢 ， 严 重 影 响 用 
户 体验 。 因 为 其 执行 频率 低 ， 所 以 总 的 响应 时 间 占 比 并 不 突出 。 
未 知 的 未 知 (3) 


一 款 好 的 性 能 剖析 工具 会 显示 可 能 的 “丢失 的 时 间 ”。 丢 失 的 
时 间 指 的 是 任务 的 总 时 间 和 实际 测量 到 的 时 间 之 间 的 差 。 例 如 ， 
如 果 处 理 器 的 CPU 时 间 是 10 秒 ， 而 剖析 到 的 任务 总 时 间 是 9.7 秒 ， 


那么 就 有 300 坚 秒 的 丢失 时 间 。 这 可 能 是 有 些 任务 没有 测量 到 ， 也 
可 能 是 由 于 测量 的 误差 和 精度 问题 的 缘故 。 如 果 工 具 发 现 了 这 类 
问题 ， 则 要 引起 重视 ， 因 为 有 可 能 错过 了 某 些 重要 的 事情 。 即 使 
性 能 剖析 没有 发 现 丢 失 时 间 ， 也 需要 注意 考虑 这 类 问题 存在 的 可 
能 性 ， 这 样 才 不 会 错过 重要 的 信息 。 我 们 的 例子 中 没有 显示 丢失 
的 时 间 ， 这 是 我 们 所 使 用 工具 的 一 个 局 限 性 。 


被 掩藏 的 细节 


性 能 剖析 无 法 显示 所 有 响应 时 间 的 分 布 。 只 相信 平均 值 是 非 
常 危 险 的 ， 它 会 隐藏 很 多 信息 ， 而 且 无 法 表达 全 部 情况 。Peter 经 
常 举 例 说 医院 所 有 病人 的 平均 体温 没有 任何 价值 人 。 假 如 在 前 面 
的 性 能 剖析 的 例子 的 第 一 项 中 ， 如 果 有 两 次 查询 的 响应 时 间 是 1 
秒 ， 而 另外 12771 次 查询 的 响应 时 间 是 几 十 微 秒 ， 结 果 会 怎样 ?只 
从 平均 值 里 是 无 法 发 现 两 次 1 秒 的 碍 询 的 。 要 做 出 最 好 的 决策 ， 需 
要 为 性 能 剖析 里 输出 的 这 一 行 中 包含 的 12773 次 查询 提供 更 多 的 信 
息 ， 尤 其 是 更 多 响应 时 间 的 信息 ， 比 如 直方 图 、 百 分 比 、 标 准 
Æ MEAE 


好 的 工具 可 以 自动 地 获得 这 些 信 息 。 实 际 上 ，pt-query-digest 就 在 
剖析 的 结果 里 包含 了 很 多 这 类 细节 信息 ， 并 且 输 出 在 剖析 报告 中 。 对 
此 我 们 做 了 简化 ， 可 以 将 精力 集中 在 重要 而 基础 的 例子 上 : 通过 排序 
将 最 昂贵 的 任务 排 在 前 面 。 本 章 后 面 会 展示 更 多 丰富 而 有 用 的 性 能 剖 
析 的 例子 。 

在 前 面 的 性 能 剖析 的 例子 中 ， 还 有 一 个 重要 的 缺失 ， 就 是 无 法 在 


更 高 层次 的 堆栈 中 进行 交互 式 的 分 析 。 当 我 们 仅仅 着 眼 于 服务 器 中 的 
单个 查询 时 ， 无 法 将 相 天 查询 联 系 起 来 ， 也 无 法 理解 这 些 碍 询 是 否 是 


同一 个 用 户 交 互 的 一 部 分 。 性 能 剖析 只 能 管 中 示 豹 ， 而 无 法 将 剖析 从 
任务 扩展 至 事务 或 者 页 面 查 看 (page view) 的 级 别 。 也 有 一 些 办 法 可 
以 解决 这 个 问题 ， 比 如 给 查询 加 上 特殊 的 注释 作为 标签 ， 可 以 标明 其 
来 源 并 据 此 做 聚合 ， 也 可 以 在 应 用 层面 增加 更 多 的 测量 点 ， 这 是 下 一 
节 的 主题 。 


3.2 ”对 应 用 程序 进行 性 能 剖析 


对 任何 需要 消耗 时 间 的 任务 都 可 以 做 性 能 剖析 ， 当 然 也 包括 应 用 
程序 。 实 际 上 ， 剖 析 应 用 程序 一 般 比 剖析 数据 库 服 务 器 容易 ， 而 且 回 
报 更 多 。 虽 然 前 面 的 演示 例子 都 是 针对 MySQL 服 务 器 的 剖析 ， 但 对 系 
统 进 行 性 能 剖析 还 是 建议 自 上 而 下 地 进行 WS， 这样 可 以 追踪 自用 户 发 
到 服务 器 响应 的 整个 流程 。 虽 然 性 能 问题 大 多 数 情况 下 都 和 数据 库 
有 关 ， 但 应 用 导致 的 性 能 问题 也 不 少 。 性 能 瓶颈 可 能 有 很 多 影响 因 
R: 


。 外 部 资源 ， 比 如 调用 了 外 部 的 web 服务 或 者 搜索 引擎 。 

。 应 用 需要 处 理 大 量 的 数据 ， 比 如 分 析 一 个 超大 的 XML 文件 。 

。 在 循环 中 执行 昂贵 的 操作 ， 比 如 滥用 正则 表达 式 。 

。 使 用 了 低 效 的 算法 ， 比 如 使 用 暴力 搜索 算法 (naive search 
algorithm) 来 查找 列表 中 的 项 。 


幸运 的 是 ， 确 定 MySQL 的 问题 没有 这 么 复杂 ， 只 需要 一 款 应 用 程 
序 的 剖析 工具 即 可 〈 作 为 回报 ， 一 旦 拥有 这 样 的 工具 ， 就 可 以 从 一 开 
台 就 写 出 高 效 的 代码 ) 。 


建议 在 所 有 的 新 项 目 中 都 考虑 包含 性 能 剖析 的 代码 。 往 已 有 的 项 
目 中 加 入 性 能 剖析 代码 也 许 很 困难 ， 新 项 目 融 简 单一 些 。 


性 能 剖析 本 身 会 导致 服务 器 变 慢 吗 ? 


说 “是 的 ”， 是 因为 性 能 剖析 确实 会 导致 应 用 慢 一 点 ;) 说 “不 
是 ”， 是 因为 性 能 剖析 可 以 帮助 应 用 运行 得 更 快 。 先 别 急 ， 下 面 就 
解释 一 下 为 什么 这 么 说 。 


性 能 剖析 和 定期 检测 都 会 融 来 额外 开销 。 问 题 在 于 这 部 分 的 开 
销 有 多 少 ， 并 且 由 此 获得 的 收益 是 否 能 够 抵消 这 些 开销 。 


大 多 数 设 计 和 构建 过 高 性 能 应 用 程序 的 人 相信 ， 应 该 尽 可 能 地 
测量 一 切 可 以 测量 的 地 方 ， 并 且 接 受 这 些 测 量 带 来 的 额外 开销 ， 这 
些 开销 应 该 被 当成 应 用 程序 的 一 部 分 。Oracle 的 性 能 优化 大 师 Tom 
Kyte 曾 被 问 到 Oracle 中 的 测量 点 的 开销 ， 他 的 回答 是 ， 测 量 点 至 少 
为 性 能 优化 贡献 了 10%。 对 此 我 们 深 表 赞同 ， 而 且 大 多 数 应 用 并 不 
需要 每 天 都 运行 详细 的 性 能 测量 ， 所 以 实际 贡献 甚至 要 超过 10%。 
即使 不 同意 这 个 观点 ， 为 应 用 构建 一 些 可 以 永久 使 用 的 轻 量 级 的 性 
能 剖析 也 是 有 意义 的 。 如 果 系 统 没 有 每 天 变化 的 性 能 统计 ， 则 碰 到 
无 法 提前 预知 的 性 能 瓶颈 就 是 一 件 头痛 的 事情 。 发 现 问题 的 时 候 ， 
如 果 有 历史 数据 ， 则 这 些 历史 数据 价值 是 无 限 的 。 而 且 性 能 数据 还 
可 以 帮助 规划 好 硬件 采购 、 资 产 分 配 ， 以 及 预测 周期 性 的 性 能 尖 


峰 。 


那么 何谓 “ 轻 量 级 ”的 性 能 剖析 ? 比如 可 以 为 所 有 SQL 语句 计 
时 ， 加 上 脚本 总 时 间 统 计 ， 这 样 做 的 代价 不 高 ， 而 且 不 需要 在 每 次 


页 面 查看 (page view) 时 都 执行 。 如 果 流 量 趋势 比较 稳定 ， 随 机 采 
样 也 可 以 ， 随 机 采样 可 以 通过 在 应 用 程序 中 设置 实现 : 


<?php 
$profiling_enabled=rand (0, 100) >99; 


?> 


这 样 只 有 1% 的 会 话 会 执行 性 能 采样 ， 来 帮助 定位 一 些 严重 的 
问题 。 这 种 策略 在 生产 环境 中 尤其 有 用 ， 可 以 发 现 一 些 其 他 方法 无 
法 发 现 的 问题 。 


几 年 前 在 写作 本 书 的 第 二 版 的 时 候 ， 流 行 的 web 编 程 语言 和 框架 
中 还 没有 太 多 现成 的 性 能 剖析 工具 可 以 用 于 生产 环境 ， 所 以 在 书 中 展 
示 了 一 段 示 例 代 码 ， 可 以 简单 而 有 效 地 复制 使 用 。 而 到 了 今天 ， 已 经 
有 了 很 多 好 用 的 工具 ， 要 做 的 只 是 打开 工具 箱 ， 就 可 以 开始 优化 性 
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首先 ， 这 里 要 “兜售 ”的 一 个 好 工具 是 一 款 叫 做 New Relic 的 软件 即 
服务 (software-as-a-service) 产品 。 声 明 一 下 我 们 不 是 “ 托 ”， 我 们 一 般 
不 会 推荐 某 个 特定 公司 或 产品 ， 但 这 个 工具 真 的 非常 棒 ， 建 议 大 家 都 
用 它 。 我 们 的 客户 借助 这 个 工具 ， 在 没有 我 们 帮助 的 情况 下 ， 解 决 了 
很 多 问题 ; 即使 有 时 候 找 不 到 解决 办 法 ， 但 依然 能 够 帮助 定位 到 问 
题 。New Relic 会 插入 到 应 用 程序 中 进行 性 能 剖析 ， 将 收集 到 的 数据 发 
送 到 一 个 基于 Web 的 仪表 盘 ， 使 用 仪表 盘 可 以 更 容易 利用 面向 响应 时 
间 的 方法 分 析 应 用 性 能 。 这 样 用 户 只 需要 考虑 做 那些 正确 的 事情 ， 而 


不 用 考虑 如 何 去 做 。 而 且 New Relic 测 量 了 很 多 用 户 体验 相关 的 点 ， 滔 
兰 从 Web 浏 览 器 到 应 用 代码 ， 再 到 数据 库 及 其 他 外 部 调用 。 


像 New Relic 这 类 工具 的 好 处 是 可 以 全 天 候 地 测量 生产 环境 的 代码 
一 一 既 不 限于 测试 环境 ， 也 不 限于 某 个 时 间 段 。 这 一 点 非常 重要 ， 
为 有 很 多 剖析 工具 或 者 测量 点 的 代价 很 高 ， 所 以 不 能 在 生产 环境 全 天 
候 运 行 。 在 生产 环境 运行 ， 可 以 发 现 一 些 在 测试 环境 和 预 发 环境 无 法 
发 现 的 性 能 问题 。 如 果 工 具 在 生产 环境 全 天 候 运 行 的 成 本 太 高 ， 那 么 
至 少 也 要 在 集群 中 找 一 台 服 务 器 运行 ， 或 者 只 针对 部 分 代码 运行 ， 原 
因 请 参考 前 面 的 “性 能 剖析 本 身 会 导致 服务 器 变 慢 吗 ? ”。 


3.2.1 ”测量 PHP 应 用 程序 


如 果 不 使 用 New Relic， 也 有 其 他 的 选择 。 尤 其 是 对 PHP， 有 好 几 
款 工 具 都 可 以 帮助 进行 性 能 剖析 。 其 中 一 款 叫 做 xhprof 
(http://pecl.php.net/package/xhprof) ， 这 是 Facebook 开 发 给 内 部 使 用 
的 ， 在 2009 年 开源 了 。xhprof 有 很 多 高 级 特性 ， 并 且 易 于 安装 和 使 
用 ， 它 很 轻 量 级 ， 可 扩展 性 也 很 好 ， 可 以 在 生产 环境 大 量 部 署 并 全 天 
候 使 用 ， 它 还 能 针对 函数 调用 进行 剖析 ， 并 根据 耗费 的 时 间 进 行 排 
序 。 相 比 xhprof， 还 有 一 些 更 底层 的 工具 ， 比 如 xdebug、 Valgrind 和 
cachegrind， 可 以 从 多 个 角度 对 代码 进行 检测 昌 。 有 些 工具 会 产生 大 量 
输出 ， 并 且 开 销 很 大 ， 并 不 适合 在 生产 环境 运行 ， 但 在 开发 环境 却 可 
以 发 挥 很 大 的 作用 。 


下 面 要 讨论 的 另外 一 个 PHP 性 能 剖析 工具 是 我 们 自己 写 的 ， 基 于 
本 书 第 二 版 的 代码 和 原则 扩展 而 来 ， 名 叫 IP (instrumentation-for- 
php ) k 码 # 管 在 Goole Code 上 


(http://code.google.com/p/instrumentation-for-php/) 。Ifp 并 不 像 xhprof 

一 样 对 PHP 做 深入 的 测量 ， 而 是 更 关注 数据 库 调 用 。 所 以 当 无 法 在 数 
据 库 层面 进行 测量 的 时 候 ，Ifp 可 以 很 好 地 帮助 应 用 剖析 数据 库 的 利用 
率 。Ifp 是 一 个 提供 了 计数 器 和 计时 器 的 单 例 类 ， 很 容易 部 署 到 生产 环 
境 中 ， 因 为 不 需要 访问 PHP 配 置 的 权限 〈《 对 很 多 开发 人 员 来 说 ， 都 没 
有 访问 PHP 配 置 的 权限 ， 所 以 这 一 点 很 重要 ) 。 


Ifp 不 会 自动 剖析 所 有 的 PHP 尔 数 ， 而 只 是 针对 重要 的 遂 数 。 例 
如 ， 对 于 某 些 需要 剖析 的 地 方 要 用 到 自 定 义 的 计数 器 ， 就 需要 手工 启 
动 和 停止 。 但 Ifp 可 以 自动 对 整个 页 面 的 执行 进行 计时 ， 这 样 对 自动 测 
量 数据 库 和 memcached 的 调用 就 比较 简单 ， 对 于 这 种 情况 就 无 须 手 工 
启动 或 者 停止 。 这 也 意味 着 ，Ifp 可 以 剖析 三 种 情况 : 应 用 程序 的 请 求 
(如 page view) 、 数 据 库 的 查询 和 缓存 的 查询 。Ifp 还 可 以 将 计数 器 和 
计时 器 输出 到 Apache， 通 过 Apache 可 以 将 结果 写 入 到 日 志 中 。 这 是 一 
种 方便 且 轻 量 的 记录 结果 的 方式 。Ifp 不 会 保存 其 他 数据 ， 所 以 也 不 需 
要 有 系统 管理 员 的 权限 。 


使 用 Ifp ， 只 需要 简单 地 在 页 面 的 开始 处 调用 start_request(。 理想 
情况 下 ， 在 程序 的 一 开始 就 应 当 调用 : 


require_once('Instrumentation.php' ); 


Instrumentation: :get_instance()->start_request(); 


这 上段 代码 注册 了 一 个 shutdown 遂 数 ， 所 以 在 执行 结束 的 地 方 不 需 
要 再 做 更 多 的 处 理 。 


Ifp 会 自动 对 SQL 添加 注释 ， 便 于 从 数据 库 的 查询 日 志 中 更 灵活 地 
分 析 应 用 的 情况 ， 通 过 SHOW PROCESSLIST 也 可 以 更 清楚 地 知道 性 
能 低 的 查询 出 自 何 处 。 大 多 数 情况 下 ， 定 位 性 能 低下 查询 的 来 源 都 不 
容易 ， 尤 其 是 那些 通过 字符 串 拼接 出 来 的 查询 语句 ， 都 没有 办 法 在 源 
代码 中 去 搜索 。 那 么 Ifp 的 这 个 功能 就 可 以 帮助 解决 这 个 问题 ， 它 可 以 
很 快 定位 到 查询 是 从 何 处 而 来 的 ， 即 使 应 用 和 数据 库 中 间 加 了 代理 或 
者 负载 均衡 层 ， 也 可 以 确认 是 哪个 应 用 的 用 户 ， 是 哪个 页 面 请 求 ， 是 
源 代码 中 的 哪个 浮 数 、 代 码 行 号 ， 甚 至 是 所 创建 的 计数 器 的 键 值 对 。 
下 面 是 一 个 例子 : 


--File: index.php Line: 118 Function: fullCachePage 
request_id: ABC session_id: XYZ 


SELECT * FROM ... 


如 何 测 量 MySQL 的 调用 取决 于 连接 MySQL 的 接口 。 如 果 使 用 的 
是 面向 对 象 的 mysqli 接 口 ， 则 只 需要 修改 一 行 代码 : 将 构造 冰 数 从 
mysqli 改 为 可 以 自动 测量 的 mysgqli_x 即 可 。mysqli_x 构 造 闵 数 是 由 Ifp 提 
供 的 子 类 ， 可 以 在 后 台 测 量 并 改写 查询 。 如 果 使 用 的 不 是 面向 对 象 的 
接口 ， 或 者 是 其 他 的 数据 库 访 问 层 ， 则 需要 修改 更 多 的 代码 。 如 果 数 
据 库 调 用 不 是 分 散在 代码 各 处 还 好 ， 否 则 建议 使 用 集成 开发 环境 
(IDE) 如 Eclipse， 这 样 修改 起 来 要 容易 些 。 但 不 管 从 哪个 方面 来 
看 ， 将 访问 数据 库 的 代码 集中 到 一 起 都 可 以 说 是 最 佳 实践 。 


Ifp 的 结果 很 容易 分 析 。 Percona Toolkit 中 的 pt-query-digest 能 够 很 
方便 地 从 查询 注释 中 抽取 出 键 值 对 ， 所 以 只 需要 简单 地 将 查询 记录 到 
MySQL 的 日 志 /CN 文 件 中 ， FB 对 日 志 /AN 文 {4 进 # 47 处 理 BN PJ o Apache 的 


mod_log_config 模 块 可 以 利用 Ifp 输 出 的 环境 变量 来 定制 日 志 输 出 ， 其 
中 的 安 %D 还 可 以 以 微 秒 级 记录 请 求 时 间 。 


也 可 以 通过 LOAD DATA INFILE 将 Apache 的 日 志 载 入 到 MySQL 数 
据 库 中 ， 然 后 通过 SQL 进行 查询 。 在 Ipp 的 网 站 上 有 一 个 PDF 的 幻灯 
片 ， 详 细 给 出 了 使 用 示例 ， 包 括 查询 和 命令 行 参 数 都 有 。 


或 许 你 会 说 不 想 或 者 没 时 间 在 代码 中 加 入 测量 的 功能 ， 其 实 这 事 
比 想象 的 要 容易 得 多 ， 而 且 花 在 优化 上 的 时 间 将 会 由 于 性 能 的 优化 而 
加 倍 地 回报 给 你 。 对 应 用 的 测量 是 不 可 替代 的 。 当 然 最 好 是 直接 使 用 
New Relic、xhproA Ifp 或 者 其 他 已 有 的 优化 工具 ， 而 不 必 重 新 去 发 明 
HET 


MySQL 企 业 监控 器 的 查询 分 析 功能 


MySQL 的 企业 监控 器 (Enterprise Monitor) 也 是 值得 考虑 的 工 
具 之 一 。 这 是 Oracle 提 供 的 MySQL 商 业 服 务 支持 中 的 一 部 分 。 它 可 
以 捕获 发 送 给 服务 器 的 查询 ， 要 么 是 通过 应 用 程序 连接 MySQL 的 库 
文件 实现 ， 要 么 是 在 代理 层 实现 (我 们 并 不 太 建 议 使 用 代理 层 ) 。 
该 工具 有 设计 良好 的 用 户 界 面 ， 可 以 直观 地 显示 查询 的 剖析 结果 ， 
并 且 可 以 根据 时 间 段 进行 缩放 ， 例 如 可 以 选择 某 个 异常 的 性 能 尖峰 
时 间 来 查看 状态 图 。 也 可 以 查看 EXPLAIN 出 来 的 执行 计划 ， 这 在 故 
障 诊断 时 非常 有 用 。 


3.3 ”剖析 MySQL 查 询 


对 查询 进行 性 能 剖析 有 两 种 方式 ， 每 种 方式 都 有 各 自 的 问题 ， 本 
章 会 详细 介绍 。 可 以 剖析 整个 数据 库 服务 器 ， 这 样 可 以 分 析出 哪些 查 
询 是 主要 的 压力 来 源 《如 果 已 经 在 最 上 面 的 应 用 层 做 过 剖析 ， 则 可 能 
已 经 知道 哪些 查询 需要 特别 留意 ) 。 定 位 到 具体 需要 优化 的 查询 后 ， 
也 可 以 钻 取 下 去 对 这 些 查询 进行 单独 的 剖析 ， 分 析 哪 些 子 任务 是 响应 
时 间 的 主要 消耗 者 。 


3.3.1 剖析 服务 器 负载 


服务 器 端的 剖析 很 有 价值 ， 因 为 在 服务 器 端 可 以 有 效 地 审计 效率 
低下 的 查询 。 定 位 和 优化 “* 坏 ”查询 能 够 显著 地 提升 应 用 的 性 能 ， 也 能 
解决 某 些 特定 的 难题 。 还 可 以 降低 服务 器 的 整体 压力 ， 这 样 所 有 的 查 
询 都 将 因为 减少 了 对 共享 资源 的 争 用 而 受益 (“间接 的 好 处 ”) 。 降 低 
服务 器 的 负载 也 可 以 推迟 或 者 避免 升级 更 昂贵 硬件 的 需求 ， 还 可 以 发 
现 和 定位 糟糕 的 用 户 体验 ， 比 如 有 某 些 极端 情况 。 


MySQL 的 每 一 个 新 版 本 中 都 增加 了 更 多 的 可 测量 点 。 如 果 当 前 的 
趋势 可 靠 的 话 ， 那 么 在 性 能 方面 比较 重要 的 测量 需求 很 快 能 够 在 全 球 
泄 围 内 得 到 支持 。 但 如 果 只 是 需要 剖析 并 找 出 代价 高 的 查询 ， 融 不 需 
要 如 此 复杂 。 有 一 个 工具 很 早 之 前 就 能 帮 有 到 我 们 了 ， 这 就 是 慢 查 询 日 


/NO 


捕获 MySQL 的 查询 到 日 志文 件 中 


在 MySQL 中 ， 慢 查询 日 志 最 初 只 是 捕获 比较 “ 慢 ” 的 查询 ， 而 性 能 
剖析 却 需要 针对 所 有 的 查询 。 而 且 在 MySQL 5.0 及 之 前 的 版 本 中 ， 慢 


查询 日 志 的 响应 时 间 的 单位 是 秒 ， 粒 度 太 粗 了 。 笠 运 的 是 ， 这 些 限 制 

都 已 经 成 为 历史 了 。 在 MySQL 5.1 及 更 新 的 版 本 中 ， 慢 日 志 的 功能 

经 被 加 强 ， 可 以 通过 设置 Iong_query_time 为 0 来 捕获 所 有 的 查询 ， 而 且 

查询 的 响应 时 间 单 位 已 经 可 以 做 到 微 秒 级 。 如 果 使 用 的 是 Percona 

Server， 那 么 5.0 版 本 就 具备 了 这 些 特性 ， 而 且 Percona Server 提 供 了 对 
志 内 容 和 查询 捕获 的 更 多 控制 能 力 。 


在 MyYSQL 的 当前 版 本 中 ， 慢 查询 日 志 是 开销 最 低 、 精 度 最 高 的 测 
量 碍 询 时 间 的 工具 。 如 果 还 在 担心 开局 慢 碍 询 日 志 会 市 来 额外 的 IO 开 
销 ， 那 大 可 以 放心 。 我 们 在 IO 密集 型 场景 做 过 基准 测试 ， 慢 查询 日 志 
带 来 的 开销 可 以 忽略 不 计 《实际 上 在 CPU 密集 型 场景 的 影响 还 稍微 大 
一 些 ) 。 更 需要 担心 的 是 日 志 可 能 消耗 大 量 的 磁盘 空间 。 如 果 长 期 开 
启 慢 碍 询 日 志 ， 注 意 要 部 署 日 志 轮 转 (log rotation) 工具 。 或 者 不 要 
长 期 局 用 慢 碍 询 日 志 ， 只 在 需要 收集 负载 样本 的 期 间 开 局 即 可 。 


MySQL 还 有 另外 一 种 查询 日 志 ， 被 称 之 为 “通用 日 志 ”， 但 很 少 用 
于 分 析 和 剖析 服务 器 性 能 。 通 用 日 志 在 查询 请 求 到 服务 器 时 进行 记 
录 ， 所 以 不 包含 响应 时 间 和 执行 计划 等 重要 信息 。MySQL 5.1 之 后 支 
持 将 日 志 记 录 到 数据 库 的 表 中 ,但 多 数 情况 下 这 样 做 没什么 必要 。 这 
不 但 对 性 能 有 较 大 影响 ， 而 且 MySQL 5.1 在 将 慢 查 询 记录 到 文件 中 时 
已 经 支持 微 秒 级 别 的 信息 ， 然 而 将 慢 查 询 记 录 到 表 中 会 导致 时 间 粒 度 
退化 为 只 能 到 秒 级 。 而 秒 级 别 的 慢 查询 日 志 没有 太 大 的 意义 。 


Percona Server 的 慢 查 询 日 志 比 MySQL 官 方 版 本 记录 了 更 多 细节 且 
有 价值 的 信息 ， 如 查询 执行 计划 、 锁 、IO 活 动 等 。 这 些 特 性 都 是 随 着 
处 理 各 种 不 同 的 优化 场景 的 需求 而 慢 慢 加 进来 的 。 另 外 在 可 管理 性 上 
也 进行 了 增强 。 比 如 全 局 修改 针对 每 个 连接 的 long_query_time 的 阅 
值 ， 这 样 当 应 用 使 用 连接 闻 或 者 持久 连接 的 时 候 ， 可 以 不 用 重 置 会 话 


级 别 的 变量 而 启动 或 者 停止 连接 的 查询 日 志 。 总 的 来 说 ， 慢 查询 日 志 
是 一 种 轻 量 而 且 功 能 全 面 的 性 能 剖析 工具 ， 是 优化 服务 器 查询 的 利 
器 。 


有 时 因为 某 些 原因 如 权限 不 足 等 ， 无 法 在 服务 器 上 记录 查询 。 这 
样 的 限制 我 们 也 单单 碰 到 ， 所 以 我 们 开发 了 两 种 奉 代 的 扩 术 ， 都 集成 
到 了 Percona Toolkit 中 的 pt-query-digest 中 。 第 一 种 是 通过 --processlist 选 
项 不 断 查 看 SHOW FULL PROCESSLIST 的 输出 ， 记 录 查 询 第 一 次 出 现 
的 时 间 和 消失 的 时 间 。 某 些 情况 下 这 样 的 精度 也 足够 发 现 问题 ， 但 却 
无 法 捕获 所 有 的 查询 。 一 些 执行 较 快 的 查询 可 能 在 两 次 执行 的 间 队 就 
执行 完成 了 ， 从 而 无 法 捕获 到 。 


第 二 种 技术 是 通过 抓 取 TCP 网 络 包 ， 然 后 根据 MySQL 的 客户 端 / 服 
务 端 通信 协议 进行 解析 。 可 以 先 通过 tcpdump 将 网 络 包 数 据 保存 到 磁 
盘 ， 然 后 使 用 pt-query-digest 的 --type=tcpdump 选 项 来 解析 并 分 析 查 
询 。 此 方法 的 精度 比较 高 ， 并 且 可 以 捕获 所 有 查询 。 还 可 以 解析 更 高 
级 的 协议 特性 ， 比 如 可 以 解析 二 进 制 协议 ， 从 而 创建 并 执行 服务 端 预 
解析 的 语句 (prepared statement) 及 压缩 协议 。 另 外 还 有 一 种 方法 ， 
就 是 通过 MySQL Proxy 代 理 层 的 脚本 来 记录 所 有 查询 ， 但 在 实践 中 我 
们 很 少 这 样 做 。 


分 析 查 询 日 志 


强烈 建议 大 家 从 现在 起 就 利用 慢 查 询 日 志 捕 获 服务 器 上 的 所 有 查 
询 ， 并 且 进 行 分 析 。 可 以 在 一 些 典 型 的 时 间 窗 口 如 业务 高 峰 期 的 一 个 
小 时 内 记录 查询 。 如 果 业 务 趋势 比较 均衡 ， 那 么 一 分 钟 甚至 更 短 的 时 
间 内 捕获 需要 优化 的 低 效 查 询 也 是 可 行 的 。 


不 要 直接 打开 整个 慢 查 询 日 志 进 行 分 析 ， 这 样 做 只 会 浪费 时 间 和 
金钱 。 首 先 应 该 生成 一 个 剖析 报告 ， 如 果 需 要 ， 则 可 以 再 查看 日 志 
需要 特别 关注 的 部 分 。 自 顶 向 下 是 比较 好 的 方式 ， 否 则 有 可 能 像 前 面 
是 到 的 ， 反 而 导致 业务 的 逆 优 化 。 


从 慢 碍 询 日 志 中 生成 剖析 报告 需要 有 一 款 好 工具 ， 这 里 我 们 建议 
使 用 pt-query-digest， 这 点 无 疑问 是 分 析 MySQL 查 询 日 志 最 有 力 的 工 
具 。 该 工具 功能 强大 ， 包 括 可 以 将 查询 报告 保存 到 数据 库 中 ， 以 及 追 
踪 工 作 负载 随时 间 的 变化 。 


一 般 情 况 下 ， 只 需要 将 慢 碍 询 日 志文 件 作 为 参数 传递 给 pf-query- 
digest， 就 可 以 正确 地 工作 了 。 它 会 将 查询 的 剖析 报告 打印 出 来 ， 并 且 
能 够 选择 将 “重要 ”的 查询 逐条 打印 出 更 详细 的 信息 。 输 出 的 报告 细节 
详尽 ， 绝 对 可 以 让 生活 更 美好 。 该 工具 还 在 持续 的 开发 中 ， 因 此 要 了 
解 最 新 的 功能 请 阅读 最 新 版 本 的 文档 。 


这 里 给 出 一 份 prquery-digest 输 出 的 报告 的 例子 ， 作 为 进行 性 能 剖 
析 的 开始 。 这 是 前 面 提 到 过 的 一 个 未 修改 过 的 剖析 报告 : 


# Profile 


# Rank Query ID Response time Calls R/Call V/M Item 


# 1 OXBFCF8E3F293F6466 11256.3618 68.1% 78069 0.1442 
0.21 SELECT InvitesNew? 
# 2 Ox620B8CAB2B1C76EC 2029.4730 12.3% 14415 0.1408 


0.21 SELECT StatusUpdate? 


# 3 OxB90978440CC11CC7 1345.3445 8.1% 3520 0.3822 
0.00 SHOW STATUS 

# 4 OxCB/73D6B5B031B4CF 1341.6432 8.1% 3509 0.3823 
0.00 SHOW STATUS 

# MISC OxMISC 560.7556 3.4% 23930 0.0234 
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可 以 看 到 这 个 比 之 前 的 版 本 多 了 一 些 细节 。 首 先 ， 每 个 查询 都 有 
一 个 ID， 这 是 对 查询 语句 计算 出 的 哈 希 值 指纹 ， 计 算 时 去 掉 了 查询 条 
件 中 的 文本 值 和 所 有 空格 ， 并 且 全 部 转化 为 小 写字 母 (请 注意 第 三 条 
和 第 四 条 语句 的 摘要 看 起 来 一 样 ， 但 哈 希 指 纹 是 不 一 样 的 ) 。 该 工具 
对 表 名 也 有 类 似 的 规范 做 法 。 表 名 InvitesNew 后 面 的 问号 意味 着 这 是 
一 个 分 片 (shard) 的 表 ， 表 名 后 面 的 分 片 标 识 被 问号 替代 ， 这 样 就 可 
以 将 同一 组 分 片 表 作为 一 个 整体 做 汇总 统计 。 这 个 例子 实际 上 是 来 自 
一 个 压力 很 大 的 分 片 过 的 Facebook 应 用 。 


报告 中 的 V/M 列 提供 了 方差 均值 比 (variance-to-mean ratio) 的 详 
细 数 据 ， 方 差 均值 比 也 就 是 常 说 的 离 差 指数 (index of dispersion) o 
离 差 指数 高 的 查询 对 应 的 执行 时 间 的 变化 较 大 ， 而 这 类 查询 通常 都 值 
得 去 优化 。 如 果 pt-query-digest 指 定 了 --explain 选 项 ， 输 出 结果 中 会 增 
加 一 列 简要 描述 查询 的 执行 计划 ， 执 行 计划 是 查询 背后 的 “ 极 客 代 
码 ”。 通 过 联合 观察 执行 计划 列 和 V/M 列 ， 可 以 更 容易 识别 出 性 能 低下 
需要 优化 的 查询 。 


最 后 ， 在 尾部 也 增加 了 一 行 输出 ， 显 示 了 其 他 17 个 占 比较 低 而 不 
值得 单独 显示 的 查询 的 统计 数据 。 可 以 通过 --limit 和 --outliers 选 项 指定 
工具 显示 更 多 查询 的 详细 信息 ， 而 不 是 将 一 些 不 重要 的 查询 汇总 在 最 


后 一 行 。 默 认 只 会 打印 时 间 消 耗 前 10 位 的 查询 ， 或 者 执行 时 间 超 过 1 秒 
阐 值 很 多 倍 的 查询 ， 这 两 个 限制 都 是 可 配置 的 。 


剖析 报告 的 后 面包 含 了 每 种 查询 的 详细 报告 。 可 以 通过 查询 的 ID 
或 者 排名 来 匹配 前 面 的 剖析 统计 和 查询 的 详细 报告 。 下 面 是 排名 第 一 
也 就 是 “最 差 ” 的 查询 的 详细 报告 : 


# Query 1: 24.28 QPS, 3.50x concurrency, ID OxBFCF8E3F293F6466 at byte 5590079 
# This item is included in the report because it matches --limit. 

# Scores: V/M = 0.21 

# Query time sparkline: | _^_.^_ | 

# Time range: 2008-09-13 21:51:55 to 22:45:30 

# Attribute pet total min max avg 95% stddev median 


# ============ === ======= ======= ======= ======= ======= ======= ======= 
# Count 63 78069 

# Exec time 68 112565 37us 1s 144ms 50ims = 175ms 68ms 
# Lock time 85 134s 0 650ms 2ms 176us 20ms 57us 
# Rows sent 8 70.18k 0 1 0.92 0.99 0.27 0.99 
# Rows examine 8 70.84k 0 3 0.93 0.99 0.28 0.99 
# Query size 84 10.43M 135 141 140.13 136.99 0.10 136.99 
# String: 

# Databases production 

# Hosts 

# Users fbappuser 

# Query time distribution 

# 1us 

# 10us # 

# 100US HHH HHHH HHH HHHH R HHHH H 

# 1ms ### 


# 10ms = #HHHHHHHHHHHHHHH 
# 100ms =#HHHHHHHHHHHHHHHHHHHHHHHHHHH HARAR RHR RRHH HHR RHR 


# SHOW TABLE STATUS FROM ‘production ` LIKE'InvitesNew82'\G 

# SHOW CREATE TABLE “production ~.*InvitesNew82'\G 

# EXPLAIN /*!50100 PARTITIONS*/ 

SELECT InviteId, InviterIdentifier FROM InvitesNew82 WHERE (InviteSetId = 87041469) 
AND (InviteeIdentifier = 1138714082) LIMIT 1\G 


查询 报告 的 顶部 包含 了 一 些 元 数据 ， 包 括 碍 询 执行 的 频率 、 平 均 
并 发 度 ， 以 及 该 查询 性 能 最 差 的 一 次 执行 在 日 志文 件 中 的 字 节 偏 移 
值 ， 接 下 来 还 有 一 个 表格 格式 的 元 数据 ， 包 括 诸如 标准 差 一 类 的 统计 
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接 下 来 的 部 分 是 响应 时 间 的 直方 图 。 有 趣 的 是 ， 可 以 看 到 上 面 这 
个 查询 在 Query_time distribution 部 分 的 直方 图 上 有 两 个 明显 的 高 峰 ， 
大 部 分 情况 下 执行 都 需要 几 百 毫秒 ， 但 在 快 三 个 数量 级 的 部 分 也 有 一 
个 明显 的 尖峰 ， 几 百 微 秒 就 能 执行 完成 。 如 果 这 是 Percona Server 的 记 
录 ， 那 么 在 查询 日 志 中 还 会 有 更 多 丰富 的 属性 ， 可 以 对 查询 进行 切片 
分 析 到 底 发 生 了 什么 。 比 如 可 能 是 因为 查询 条 件 传递 了 不 同 的 值 ， 而 
这 些 值 的 分 布 很 不 均衡 ， 导 致 服务 器 选择 了 不 同 的 索引 ; 或 者 是 由 于 
查询 缓存 命中 等 。 在 实际 系统 中 ， 这 种 有 两 个 尖峰 的 直方 图 的 情况 很 
少见 ， 尤 其 是 对 于 简单 的 查询 ， 查 询 越 简单 执行 计划 也 越 稳定 。 


在 细节 报告 的 最 后 部 分 是 方便 复制 、 粘 贴 到 终端 去 检查 表 的 模式 
和 状态 的 语句 ， 以 及 完整 的 可 用 于 EXPLAIN 分 析 执 行 计 划 的 语句 。 
EXPLAIN 分 析 的 语句 要 求 所 有 的 条 件 是 文本 值 而 不 是 “指纹 ”替代 符 ， 
所 以 是 真正 可 直接 执行 的 语句 。 在 本 例 中 是 执行 时 间 最 长 的 一 条 实际 
的 查询 。 


确定 需要 优化 的 查询 后 ， 可 以 利用 这 个 报告 迅速 地 检查 查询 的 执 
行情 况 。 这 个 工具 我 们 经 常 使 用 ， 并 且 会 根据 使 用 的 情况 不 断 进行 修 
正 以 帮助 提升 工具 的 可 用 性 和 效率 ， 强 烈 建议 大 家 都 能 熟练 使 用 它 。 
MySQL 本 身 在 未 来 或 许 也 会 有 更 多 复杂 的 测量 点 和 剖析 工具 ， 但 在 本 
书写 作 时 ， 通 过 慢 查 询 日 志 记 录 查 询 或 者 使 用 pt-query-digest 分 析 
tcpdump 的 结果 ， 是 可 以 找到 的 最 好 的 两 种 方式 。 


3.3.2” 齐 析 单条 查询 


在 定位 到 需要 优化 的 单条 查询 后 ， 可 以 针对 此 查询 “ 钻 取 ” 更 多 的 
言 息 ， 确 认为 什么 会 花费 这 么 长 的 时 间 执 行 ， 以 及 需要 如 何 去 优 化 。 


关于 如 何 优化 查询 的 技术 将 在 本 书后 续 的 一 些 章节 讨论 ， 在 此 之 前 还 
需要 介绍 一 些 相 关 的 背景 知识 。 本 章 的 主要 目的 是 介绍 如 何方 便 地 测 
量 查 询 执行 的 各 部 分 花费 了 多 少时 间 ， 有 了 这 些 数据 才能 决定 采用 何 
种 优化 技术 。 


不 幸 的 是 ，MySQL 目 前 大 多 数 的 测量 点 对 于 剖析 查询 都 没有 什么 
帮助 。 当 然 这 种 状况 正在 改善 ， 但 在 本 书写 作 之 际 ， 大 多 数 生 产 环境 
的 服务 器 还 没有 使 用 包含 最 新 剖析 特性 的 版 本 。 所 以 在 实际 应 用 中 ， 
除了 SHOW STATUS, SHOW PROFILE、 检 查 慢 查询 日 志 的 条 目 (这 
还 要 求 必须 是 Percona Server， 官 方 MySQL 版 本 的 慢 查 询 日 志 缺 失 了 很 
多 附加 信息 ) 这 三 种 方法 外 就 没有 什么 更 好 的 办 法 了 。 下 面 将 逐一 演 
示 如 何 使 用 这 三 种 方法 来 剖析 单条 查询 ， 看 看 每 一 种 方法 是 如 何 显示 
查询 的 执行 情况 的 。 


使 用 SHOW PROFILE 


SHOW PROFILE 命 令 是 在 MySQL 5.1 以 后 的 版 本 中 引入 的 ， 来 源 
于 开源 社区 中 的 Jeremy Cole 的 贡献 。 这 是 在 本 书写 作 之 际 唯 一 一 个 在 
GA 版 本 中 包含 的 真正 的 查询 剖析 工具 。 默 认 是 禁用 的 ， 但 可 以 通过 服 
务 器 变量 在 会 话 (连接 ) 级 别 动态 地 修改 。 


mysql> SET profiling = 1; 


然后 ， 在 服务 器 上 执行 的 所 有 语句 ， 都 会 测量 其 耗费 的 时 间 和 其 
他 一 些 查询 执行 状态 变更 相关 的 数据 。 这 个 功能 有 一 定 的 作用 ， 而 且 
最 初 的 设计 功能 更 强大 ， 但 未 来 版 本 中 可 能 会 被 Performance Schema 所 


取代 。 尽 管 如 此 ， 这 个 工具 最 有 用 的 作用 还 是 在 语句 执行 期 间 剖 析 服 
务 器 的 具体 工作 。 


当 一 条 查询 提交 给 服务 器 时 ， 此 工具 会 记录 剖析 信息 到 一 张 临时 
表 ， 并 且 给 查询 赋予 一 个 从 1 开始 的 整数 标识 符 。 下 面 是 对 Sakila 样 本 
数据 库 的 一 个 视图 的 剖析 结果 避 ): 


mysql> SELECT * FROM sakila.nicer_but_slower_film_list; 
[query results omitted] 


997 rows in set (0.17 sec) 


该 查询 返回 了 997 行 记录 ， 人 花费 了 大 概 1/6 秒 。 下 面 看 一 下 SHOW 
PROFILES 有 什么 结果 : 


pa -e PROFILES; 


首先 可 以 看 到 的 是 以 很 高 的 精度 显示 了 查询 的 响应 时 间 ， 这 很 
好 。MySQL 客 户 端 显示 的 时 间 只 有 两 位 小 数 ， 对 于 一 些 执行 得 很 快 的 
查询 这 样 的 精度 是 不 够 的 。 下 面 继续 看 接 下 来 的 输出 : 


mysql> SHOW PROFILE FOR QUERY 1; 
+ 


---------------------- +----------+ 
| Status Duration | 
+---------------------- +---------- 十 
| starting 0.000082 | 
| 0pening tables 0.000459 | 
| System lock 0.000010 | 
| Table lock 0.000020 | 
| checking permissions | 0.000005 | 
| checking permissions | 0.000004 | 
| checking permissions | 0.000003 | 
| checking permissions | 0.000004 | 
| checking permissions | 0.000560 | 
| optimizing 0.000054 | 
| statistics 0.000174 | 
| preparing 0.000059 | 
| Creating tmp table 0.000463 | 
| executing 0.000006 | 
| Copying to tmp table | 0.090623 | 
| Sorting result 0.011555 | 
| Sending data 0.045931 | 
| removing tmp table 0.004782 | 
| Sending data 0.000011 | 
| init 0.000022 | 
| optimizing 0.000005 | 
| statistics 0.000013 | 
| preparing 0.000008 | 
| executing 0.000004 | 
| Sending data 0.010832 | 
| end 0.000008 | 
| query end 0.000003 | 
| freeing items 0.000017 | 
| removing tmp table 0.000010 | 
freeing items | 0.000042 | 
removing tmp table | 0.001098 


logging slow query | 0.000003 

logging slow query | 0.000789 

cleaning up | 0.000007 | 
+---------------------- +---------- + 


| 
| 
| closing tables | 0.000013 | 
| 
| 
| 


剖析 报告 给 出 了 查询 执行 的 每 个 步骤 及 其 花费 的 时 间 ， 看 结果 很 
难 快 速 地 确定 哪个 步骤 花费 的 时 间 最 多 。 因 为 输出 是 按照 执行 顺序 排 
序 ， 而 不 是 按 花 费 的 时 间 排 序 的 一 一 而 实际 上 我 们 更 关心 的 是 花费 了 
多 少时 间 ， 这 样 才能 知道 哪些 开销 比较 大 。 但 不 幸 的 是 无 法 通过 诸如 
ORDER BY 之 类 的 命令 重新 排序 。 假 如 不 使 用 HOW PROFILE 命 令 而 
是 直接 查询 INFORMATION_SCHEMA 中 对 应 的 表 ， 则 可 以 按照 需要 
格式 化 输出 : 


mysql> SET @query_id = 1; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT STATE, SUM(DURATION) AS Total_R, 
->  ROUND( 
> 100 * SUM(DURATION) / 
> (SELECT SUM(DURATION) 
-> FROM INFORMATION _SCHEMA.PROFILING 
-> WHERE QUERY_ID = @query_id 
> ), 2) AS Pct R, 
> COUNT(*) AS Calls, 
>  SUM(DURATION) / COUNT(*) AS "R/Call" 
-> FROM INFORMATION SCHEMA. PROFILING 
-> WHERE QUERY_ID = @query_id 
-> GROUP BY STATE 
-> ORDER BY Total_R DESC; 


+---------------------- +---------- +------- +------- +-------------- + 
STATE Total R | Pct R | Calls | R/Call | 

+---------------------- +------ ean cere ERA +-------------- 十 
Copying to tmp table | 0.090623 | 54.05 | 1 | 0.0906230000 | 
Sending data 0.056774 | 33.86 | 3 | 0.0189246667 | 
Sorting result 0.011555 | 6.89 | 1 | 0.0115550000 | 
removing tmp table 0.005890 | 3.51 | 3 | 0.0019633333 
logging slow query 0.000792 | 0.47 | 2 | 0.0003960000 | 
checking permissions | 0.000576 | 0.34 | 5 | 0.0001152000 | 
Creating tmp table 0.000463 | 0.28 | 1 | 0.0004630000 | 
Opening tables 0.000459 | 0.27 | 1 | 0.0004590000 | 
statistics 0.000187 | 0.11 | 2 | 0.0000935000 | 
starting 0.000082 | 0.05 | 1 | 0.0000820000 | 
preparing 0.000067 | 0.04 | 2 | 0.0000335000 | 
freeing items 0.000059 | 0.04 | 2 | 0.0000295000 | 
optimizing 0.000059 | 0.04 | 2 | 0.0000295000 | 
init 0.000022 | 0.01 | 1 | 0.0000220000 | 
Table lock 0.000020 | 0.01 | 1 | 0.0000200000 | 
closing tables 0.000013 | 0.01 | 1 | 0.0000130000 | 
System lock 0.000010 | 0.01 | 1 | 0.0000100000 | 
executing 0.000010 | 0.01 | 2 | 0.0000050000 | 
end 0.000008 | 0.00 | 1 | 0.0000080000 | 
cleaning up 0.000007 | 0.00 | 1 | 0.0000070000 | 
query end 0.000003 | 0.00 | 1 | 0.0000030000 | 

+---------------------- +---------- +------- +------- +-------------- + 


效果 好 多 了 ! 通过 这 个 结果 可 以 很 容易 看 到 查询 时 间 太 长 主要 是 
因为 花 了 一 大 半 的 时 间 在 将 数据 复制 到 临时 表 这 一 步 。 那 么 优化 就 要 
考虑 如 何 改写 查询 以 避免 使 用 临时 表 ， 或 者 提升 临时 表 的 使 用 效率 。 
第 二 个 消耗 时 间 最 多 的 是 “发 送 数据 (Sending data) ”， 这 个 状态 代表 
的 原因 非常 多 ， 可 能 是 各 种 不 同 的 服务 器 活动 ， 包 括 在 关联 时 搜索 匹 
配 的 行 记录 等 ， 这 部 分 很 难说 能 优化 节省 多 少 消耗 的 时 间 。 另 外 也 要 
注意 到 “结果 排序 ae result) ”花费 的 时 间 占 比 非 常 低 ， 所 以 这 音 
分 是 不 值得 去 优化 的 。 这 是 一 个 比较 典型 的 问题 ， 所 以 一 般 我 们 都 不 


建议 用 户 在 “优化 排序 缓冲 区 (tuning sort buffer) ?或 者 类 似 的 活动 上 
化 时 间 。 


尽管 剖析 报告 能 帮助 我 们 定位 到 哪些 活动 伦 费 了 最 多 的 时 间 ， 但 
并 不 会 告诉 我 们 为 什么 会 这 样 。 要 和 弄 清楚 为 什么 复制 数据 到 临时 表 要 
化 费 这 么 多 时 间 ， 束 需要 深 入 下 去 ， 继 续 训 析 这 一 步 的 子 任务 。 


使 用 SHOW STATUS 


MySQL 的 SHOW STATUS 命 令 返 回 了 一 些 计 数 器 。 既 有 服务 器 级 
别 的 全 局 计数 器 ， 也 有 基于 某 个 连接 的 会 话 级 别 的 计数 器 。 例 如 其 中 
的 Queries( 了 在 会 话 开 始 时 为 0， 每 提交 一 条 查询 增加 1。 如 果 执 行 
SHOW GLOBAL STATUS (注意 到 新 加 的 GLOBAL 关 键 字 ) ， 则 可 以 
查看 服务 器 级 别 的 从 服务 器 启动 时 开始 计算 的 查询 次 数 统计 。 不 同 计 
数 器 的 可 见 范围 不 一 样 ， 不 过 全 局 的 计数 器 也 会 出 现在 SHOW 
STATUS 的 结果 中 ， 容 易 被 误 认为 是 会 话 级 别 的 ， 千 万 不 要 搞 迷 糊 
了 。 在 使 用 这 个 命令 的 时 候 要 注意 几 点 ， 就 像 前 面 所 讨论 的 ， 收 集合 
适 级 别 的 测量 值 是 很 关键 的 。 如 果 打 算 优化 从 某 些 特定 连接 观察 到 的 
东西 ， 测 量 的 却 是 全 局 级 别 的 数据 ， 就 会 导致 混乱 。MySQL 官 方 手册 
中 对 所 有 的 变量 是 会 话 级 还 是 全 局 级 做 了 详细 的 说 明 。 


SHOW STATUS 是 一 个 有 用 的 工具 ， 但 并 不 是 一 款 剖 析 工具 ()。 
SHOW STATUS 的 大 部 分 结果 都 只 是 一 个 计数 器 ， 可 以 显示 某 些 活动 
如 读 索引 的 频繁 程度 ， 但 无 法 给 出 消耗 了 多 少时 间 。SHOW STATUS 
的 结果 中 只 有 一 条 指 的 是 操作 的 时 间 (Innodb_row_lock_time) ， 而 且 
只 能 是 全 局 级 的 ， 所 以 还 是 无 法 测量 会 话 级 别 的 工作 。 


尽管 SHOW STATUS 无 法 提供 基于 时 间 的 统计 ， 但 对 于 在 执行 完 
查询 后 观察 某 些 计数 器 的 值 还 是 有 帮助 的 。 有 时 候 可 以 猜测 哪些 操作 
代价 较 高 或 者 消耗 的 时 间 较 多 。 最 有 用 的 计数 器 包括 句柄 计数 器 
(handler counter) 、 临 时 文件 和 表 计 数 器 等 。 在 附录 B 中 会 对 此 做 更 
详细 的 解释 。 下 面 的 例子 演示 了 如 何 将 会 话 级 别 的 计数 器 重 置 为 0， 然 
后 查询 前 面 (“使 用 SHOW PROFILE” 一 节 ) 提 到 的 视图 ， 再 检查 计数 
器 的 结果 : 


mysql> FLUSH STATUS; 

mysql> SELECT * FROM sakila.nicer_but_slower_film_ list; 

[query results omitted] 

mysql> SHOW STATUS WHERE Variable_name LIKE 'Handler%' 
OR Variable name LIKE 'Createdx' ; 


| Created tmp disk tables 2 
| Created tmp files 0 
| Created tmp tables 3 
| Handler commit 1 
| Handler delete 0 
| Handler discover 0 
| Handler prepare 0 


| 
| 
| 
| 
| 
| 
| Handler read first 1 | 
| Handler read key 7483 | 
| Handler read next 6462 | 
| Handler read prev 0 | 
| Handler read rnd 5462 | 
| Handler read rnd next 6478 | 
| Handler rollback 0 | 
| Handler savepoint 0 | 
| Handler savepoint rollback | 0 | 
| Handler update 0 | 
| Handler write 6459 | 
+---------------------------- +------- + 


从 结果 可 以 看 到 该 查询 使 用 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临时 
表 ， 并 且 有 很 多 的 没有 用 到 索引 的 读 操作 (Handler_read_rnd_next) o 
假设 我 们 不 知道 这 个 视图 的 具体 定义 ， 仅 从 结果 来 推测 ， 这 个 查询 有 
可 能 是 做 了 多 表 关 联 (jon) 查询 ， 并 且 没 有 合适 的 索引 ， 可 能 是 其 
中 一 个 子 查 询 创 建 了 临时 表 ， 然 后 和 其 他 表 做 联合 查询 。 而 用 于 保存 
子 查询 结果 的 临时 表 没 有 索引 ， 如 此 大 致 可 以 解释 这 样 的 结果 。 


使 用 这 个 技术 的 时 候 ， 要 注意 SHOW STATUS 本 身 也 会 创建 一 个 
临时 表 ， 而 且 也 会 通过 句柄 操作 访问 此 临时 表 ， 这 会 影响 到 SHOW 
STATUS 结果 中 对 应 的 数字 ， 而 且 不 同 的 版 本 可 能 行为 也 不 尽 相 同 。 
比较 前 面 通过 SHOW PROFILES 获 得 的 查询 的 执行 计划 的 结果 来 看 ， 
至 少 临 时 表 的 计数 器 多 加 了 2。 


你 可 能 会 注意 到 通过 EXPLAIN 查 看 查询 的 执行 计划 也 可 以 获得 大 
部 分 相同 的 信息 ， 但 EXPLAIN 是 通过 估计 得 到 的 结果 ， 而 通过 计数 器 
则 是 实际 的 测量 结果 。 例 如 ，EXPLAIN 无 法 告诉 你 临时 表 是 否 是 磁盘 
表 ， 这 和 内 存 临 时 表 的 性 能 差别 是 很 大 的 。 附 录 D 包 含 更 多 关于 
EXPLAIN 的 内 容 。 


使 用 慢 查 询 日 志 


那么 针对 上 面 这 样 的 查询 语句 ，Percona Server 对 慢 查 询 日 志 做 了 
哪些 改进 ? 下 面 是 “使 用 SHOW PROFILE” 一 节 演 示 过 的 相同 的 查询 执 
行 后 抓 取 到 的 结果 : 


# Time: 110905 17:03:18 
# User@Host: root[root] @ localhost [127.0.0.1] 
# Thread_id: 7 Schema: sakila Last_errno: 0 Killed: 0 
# Query_time: 0.166872 Lock_time: 0.000552 Rows_sent: 997 
Rows_examined: 24861 
Rows_affected: © Rows_read: 997 
# Bytes_sent: 216528 Tmp_tables: 3 Tmp_disk_tables: 2 


Tmp_table_sizes: 11627188 


# InnoDB_trx_id: 191E 
# QC_Hit: No Full_scan: Yes Full_join: No Tmp_table: Yes 
Tmp_table_on_disk: Yes 
# Filesort: Yes Filesort_on_disk: No Merge_passes: 0 
# InnoDB_IO_r_ops: 0 InnoDB_IO_r_bytes: 0 InnoDB_IO_r_wait: 


0.000000 


# InnoDB_rec_lock_wait: 0.000000 InnoDB_queue_wait: 
0.000000 
# InnoDB_pages_distinct: 20 
# PROFILE_VALUES ... Copying to tmp table: 0.090623... 
[omitted] 
SET timestamp=1315256598; 


SELECT * FROM sakila.nicer_but_slower_film_list; 


从 这 里 看 到 查询 确实 一 共 创 建 了 三 个 临时 表 ， 其 中 两 个 是 磁盘 临 
时 表 。 而 SHOW PROFILE 看 起 来 则 隐藏 了 信息 (可 能 是 由 于 服务 器 执 
行 查询 的 方式 有 不 一 样 的 地 方 造 成 的 ) 。 这 里 为 了 方便 阅读 ， 对 结 
做 了 简化 。 但 最 后 对 该 查询 执行 SHOW PROFILE 的 数据 也 会 写 入 到 日 
志 中 ， 所 以 在 Percona Server 中 甚至 可 以 记录 SHOW PROFILE 的 细节 


as 
言 息 。 


另外 也 可 以 看 到 ， 慢 查询 日 志 中 详细 记录 的 条 目 包 含 了 SHOW 
PROFILE 和 SHOW STATUS 所 有 的 输出 ， 并 且 还 有 更 多 的 信息 。 所 以 
通过 pt-query-digest 发 现 “ 坏 ”查询 后 ， 在 慢 查 询 日 志 中 可 以 获得 足够 有 
用 的 信息 。 查 看 pt-query-digest 的 报告 时 ， 其 标题 部 分 一 般 会 有 如 下 输 
出 : 


# Query 1:0 QPS, Ox concurrency, ID OxEE758C5EQD7EADEE at 


byte 3214 


可 以 通过 这 里 的 字 节 偏 移 值 (3214) 直接 跳 转 到 日 志 的 对 应 部 
分 ， 例 如 用 下 面 这 样 的 命令 即 可 : 


tail -c +3214 /path/to/query.log | head -n100 


这 样 就 可 以 直接 跳 转 到 细节 部 分 了 。 另 外 ，pt-query-digest 能 够 处 
理 Percona Server 在 慢 查 询 日 志 中 增加 的 所 有 键 值 对 ， 并 且 会 自动 在 报 
告 中 打印 更 多 的 细节 信息 。 


使 用 Performance Schema 


Using the Performance Schema 


在 本 书写 作 之 际 ， 在 MySQL 5.5 中 新 增 的 Performance Schema 表 还 
不 支持 查询 级 别 的 剖析 信息 。Performance Schema 还 是 非常 新 的 特性 ， 
并 且 还 在 快速 开发 中 ， 未 来 的 版 本 中 将 会 包含 更 多 的 功能 。 尽 管 如 
此 ，MySQL 5.5 的 初始 版 本 已 经 包含 了 很 多 有 趣 的 信息 。 例 如 ， 下 面 
的 查询 显示 了 系统 中 等 待 的 主要 原因 : 


mysql> SELECT event_name, count_star, sum_timer_wait 
-> FROM events waits_summary global by event name 
-> ORDER BY sum_timer_wait DESC LIMIT 5; 


二- +------------ +------------------ + 
| event_name | count_star | sum timer wait | 
二- +------------ +------------------ + 
| innodb log file | 205438 | 2552133070220355 | 
| Query _cache: :COND cache status changed | 8405302 | 2259497326493034 | 
| Query_cache::structure_guard_ mutex | 55769435 | 361568224932147 | 
| innodb data file | 62423 | 347302500600411 | 
| dict_table stats | 15330162 | 53005067680923 | 
ee +------------ +------------------ + 


目前 还 有 一 些 限制 ， 使 得 Performance Schema 还 无 法 被 当 作 一 个 通 
用 的 剖析 工具 。 首 先 ， 它 还 无 法 提供 查询 执行 阶段 的 细节 信息 和 计时 
信息 ， 而 前 面 提供 的 很 多 现 有 的 工具 都 已 经 能 做 到 这 些 了 。 其 次 ， 还 
没有 经 过 长 时 间 、 大 规模 使 用 的 验证 ， 并 且 自 身 的 开销 也 还 比较 大 ， 
多 数 比较 保守 的 用 户 还 对 此 持 有 疑问 〈 不 过 有 理由 相信 这 些 问题 很 快 
都 会 被 修复 的 ) 。 


最 后 ， 对 大 多 数 用 户 来 说 ， 直 接 通过 Performance Schema 的 裸 数据 
获得 有 用 的 结果 相对 来 说 过 于 复杂 和 底层 。 到 目前 为 止 实现 的 这 个 特 
性 ， 主 要 是 为 了 测量 当 为 提升 服务 器 性 能 而 修改 MySQL 产 代码 时 使 
用 ， 包 括 等 待 和 互 斥 锁 。MySQL 5.5 中 的 特性 对 于 高 级 用 户 也 很 有 价 
值 ， 而 不 仅仅 为 开发 者 使 用 ， 但 还 是 需要 开发 一 些 前 端 工具 以 方便 用 
户 使 用 和 分 析 结 果 。 目 前 就 只 能 通过 写 一 些 复杂 的 语句 去 查询 大 量 的 
元 数据 表 的 各 种 列 。 这 在 使 用 过 程 中 需要 人 花 很 多 时 间 去 熟悉 和 理解 。 


在 MySQL 5.6 或 者 以 后 的 版 本 中 ，Performance Schema 将 会 包含 更 
多 的 功能 ， 再 加 上 一 些 方便 使 用 的 工具 ， 这 样 融 更 “ 爽 ” 了 。 MH 
Oracle 将 其 实现 成 表 的 形式 ， 可 以 通过 SQL 访问 ， 这 样 用 户 可 以 方便 
地 访问 有 用 的 数据 。 但 其 目前 还 无 法 立即 取代 慢 查 询 日 志 等 其 他 工具 
用 于 服务 器 和 查询 的 性 能 优化 。 


3.3.3 ”使 用 性 能 剖析 


当 获 得 服务 器 或 者 查询 的 剖析 报告 后 ， 怎 么 使 用 ”好 的 剖析 报告 
能 够 将 潜在 的 问题 显示 出 来 ， 但 最 终 的 解决 方案 还 需要 用 户 来 决定 
(尽管 报告 可 能 会 给 出 建议 ) 。 优 化 查询 时 ， 用 户 需 要 对 服务 器 如 何 


ie 
>B 

FATA BROAD T AR. HATIR REIS R T BE SHU SR E RAE 

给 出 诊断 间 题 的 正确 方向 ， 以 及 为 其 他 诸如 EXPLAIN 等 工具 提供 基础 


Bf 
信息 。 这 里 只 是 先 引 出 话题 ， 后 续 章节 将 继续 讨论 。 


尽管 一 个 拥有 完整 测量 信息 的 剖析 报告 可 以 让 事情 变 得 简单 ， 但 
现 有 系统 通常 都 没有 完美 的 测量 支持 。 从 前 面 的 例子 来 说 ， 我 们 虽然 
推断 出 是 临时 表 和 没有 索引 的 读 导 致 查询 的 响应 时 间 过 长 ， 但 却 没 有 
明确 的 证 据 。 因 为 无 法 测量 所 有 需要 的 信息 ， 或 者 测量 的 范围 不 正 
确 ， 有 些 问 题 就 很 难 解决 。 例 如 ， 可 能 没有 集中 在 需要 优化 的 地 方 测 
量 ， 而 是 测量 了 服务 器 层面 的 活动 ; 或 者 测量 的 是 查询 开始 之 前 的 计 
数 器 ， 而 不 是 查询 开始 后 的 数据 。 


也 有 其 他 的 可 能 性 。 设 想 一 下 正在 分 析 慢 查询 日 志 ， 发 现 了 一 个 
很 简单 的 查询 正常 情况 下 都 非常 快 ， 却 有 几 次 非常 不 合理 地 执行 了 很 
长 时 间 。 手 工 重新 执行 一 遍 ， 发 现 也 非常 快 ， 然 后 使 用 EXPLAIN 查 询 
其 执行 计划 ， 也 正确 地 使 用 了 索引 。 人 然后 尝试 修改 WHERE 条 件 中 使 
用 不 同 的 值 ， 以 排除 缓存 命中 的 可 能 ， 也 没有 发 现 有 什么 问题 ， 这 可 
能 是 什么 原因 呢 ? 


如 果 使 用 官方 版 本 的 MySQL， 慢 查询 日 志 中 没有 执行 计划 或 者 详 
细 的 时 间 信 息 ， 对 于 偶尔 记录 到 的 这 几 次 查询 异常 慢 的 问题 ， 很 难 知 
道 其 原因 在 哪里 ， 因 为 信息 有 限 。 可 能 是 系统 中 有 其 他 东西 消耗 了 资 


源 ， 比 如 正在 备份 ， 也 可 能 是 某 种 类 型 的 锁 或 者 争 用 阻塞 了 查询 的 进 
度 。 这 种 间歇 性 的 问题 将 在 下 一 节 详 细 讨论 。 


3.4 “诊断 间歇 性 问题 


间歇 性 的 问题 比如 系统 偶尔 停顿 或 者 慢 碍 询 ， 很 难 诊断 。 有 人 些 幻 
影 问题 只 在 没有 注意 到 的 时 候 才 发 生 ， 而 且 无 法 确认 如 何 重 现 ， 诊 断 
这 样 的 问题 往往 要 人 花费 很 多 时 间 ， 有 时 候 甚至 需要 好 几 个 月 。 在 这 个 
过 程 中 ， 有 些 人 会 党 试 以 不 断 试 错 的 方式 来 诊断 ， 有 时 候 甚 至 会 想 要 
通过 随机 地 改变 一 些 服 务 器 的 设置 来 侥 竹 地 找到 问题 。 


尽量 不 要 使 用 试 错 的 方式 来 解决 问题 。 这 种 方式 有 很 大 的 风险 ， 
因为 结果 可 能 变 得 更 坏 。 这 也 是 一 种 令 人 肖 表 且 低 效 的 方式 。 如 果 一 
时 无 法 定位 问题 ， 可 能 是 测量 的 方式 不 正确 ， 或 者 测量 的 点 选择 有 
误 ， 或 者 使 用 的 工具 不 合适 (也 可 能 是 缺少 现成 的 工具 ， 我 们 已 经 开 
发 过 工具 来 解决 各 个 系统 不 透明 导致 的 问题 ， 包 括 从 操作 系统 到 
MySQL 都 有 ) o 


为 了 演示 为 什么 要 尽量 避免 试 错 的 诊断 方式 ， 下 面 列 举 了 我 们 认 
为 已 经 解决 的 一 些 间 歇 性 数据 库 性 能 问题 的 实际 案例 : 


。 应 用 通过 cur/ 从 一 个 运行 得 很 慢 的 外 部 服务 来 获取 汇率 报价 的 数 
据 。 

memcached 缓 存 中 的 一 些 重要 条 目 过 期 ， 导 致 大 量 请 求 洛 到 
MySQL 以 重新 生成 缓存 条 目 。 

DNS 碍 询 偶尔 会 有 超时 现象 。 


。 可 能 是 由 于 互 斥 锁 争 用 ， 或 者 内 部 删除 查询 缓存 的 算法 效率 太 低 
的 缘故 ，MySQL 的 查询 缓存 有 时 候 会 导致 服务 有 短暂 的 停顿 。 

。 当 并 发 度 超过 某 个 阐 值 时 ，InnoDB 的 扩展 性 限制 导致 查询 计划 的 
优化 需要 很 长 的 时 间 。 


从 上 面 可 以 看 到 ， 有 些 问题 确实 是 数据 库 的 原因 ， 也 有 些 不 是 。 
只 有 在 问题 发 生 的 地 方 通过 观察 资源 的 使 用 情况 ， 并 尽 可 能 地 测量 出 
数据 ， 才 能 避免 在 没有 问题 的 地 方 耗费 精力 。 


下 面 不 再 多 费 口 天 说 明 试 锐 的 问题 ， 而 是 给 出 我 们 解决 间歇 性 问 
题 的 方法 和 工具 ， 这 才 是 “王道 ”。 


3.4.1 单条 查询 问题 还 是 服务 器 问题 


发 现 问题 的 蛛丝马迹 了 吗 ? 如 果 有 ， 则 首先 要 确认 这 是 单条 查询 
的 问题 ， 还 是 服务 器 的 问题 。 这 将 为 解决 问题 指出 正确 的 方向 。 如 果 
服务 器 上 所 有 的 程序 都 突然 变 慢 ， 又 突然 都 变 好 ， 每 一 条 查询 也 都 变 
慢 了 ， 那 么 慢 查 询 可 能 束 不 一 定 是 原因 ， 而 是 由 于 其 他 问题 导致 的 结 
果 。 反 过 来 说 ， 如 果 服 务 器 整体 运行 没有 问题 ， 只 有 某 条 查询 偶尔 变 
慢 ， 就 需要 将 注意 力 放 到 这 条 特定 的 查询 上 面 。 


服务 器 的 问题 非常 常见 。 在 过 去 几 年 ， 硬 件 的 能 力 越 来 越 强 ， 配 
置 16 核 或 者 更 多 CPU 的 服务 器 成 了 标 配 ，MySQL 在 SMP 架 构 的 机 器 上 
的 可 扩展 性 限制 也 就 越 来 越 显露 出 来 。 尤 其 是 较 老 的 版 本 ， 其 问题 更 
加 严重 ， 而 目前 生产 环境 中 的 老 版 本 还 非常 多 。 新 版 本 MySQL 依 然 也 
还 有 一 些 扩展 性 限制 ， 但 相 比 老 版 本 已 经 没有 那么 严重 ， 而 且 出 现 的 
频率 相对 小 很 多 ， 只 是 偶尔 能 碰 到 。 这 是 好 消息 ， 也 是 坏 消息 : 好 消 


息 是 很 少 会 碰 到 这 个 问题 ; 坏 消息 则 是 一 旦 碰 到 ， 则 需要 对 MySQL 内 
部 机 制 更 加 了 解 才 能 诊断 出 来 。 当 然 ， 这 也 意味 着 很 多 问题 可 以 通过 
升级 到 MySQL 新 版 本 来 解决 (号 )。 


那么 如 何 判断 是 单条 查询 问题 还 是 服务 器 问题 呢 ? 如果 问题 不 售 
地 周期 性 出 现 ， 那 么 可 以 在 某 次 活动 中 观察 到 ; 或 者 整 夜 运行 脚本 收 
集 数据 ， 第 二 天 来 分 析 结 果 。 大 多 数 情况 下 都 可 以 通过 三 种 技术 来 解 
决 ， 下 面 将 一 一 道 来 。 


使 用 SHOW GLOBAL STATUS 


这 个 方法 实际 上 就 是 以 较 高 的 频率 比如 一 秒 执行 一 次 SHOW 
GLOBAL STATUS 命 令 捕 获 数据 ， 问 题 出 现时 ， 则 可 以 通过 某 些 计数 
器 (比如 Threads_running、Threads_connected、 Questions 和 Queries ) 
的 *“ 尖 刺 ? 或 者 “凹陷 ?来 发 现 。 这 个 方法 比较 简单 ， 所 有 人 都 可 以 使 用 
(不 需要 特殊 的 权限 ) ， 对 服务 器 的 影响 也 很 小 ， 所 以 是 一 个 花费 时 
间 不 多 却 能 很 好 地 了 解 问题 的 好 方法 。 下 面 是 示例 命令 及 其 输出 : 


$ mysqladmin ext -i1 | awk ' 

/Queries/{q=$4-qp; qp=$4} 

/Threads_connected/{tc=$4} 

/Threads_running/{printf "%5d %5d %5d\n", q, tc, $4}' 
2147483647 136 7 

798 136 7 

767 134 9 

828 134 7 


683 134 7 
784 135 7 
614 134 7 
108 134 24 
187 134 31 
179 134 28 
1179 134 
1151 134 
1240 135 
1000 135 


这 个 命令 每 秒 捕获 一 次 SHOW GLOBAL STATUS 的 数据 ， 输 出 给 
awk 计算 并 输出 每 秒 的 查询 数 、Threads_connected 和 Threads_running 
(表示 当前 正在 执行 查询 的 线程 数 ) 。 这 三 个 数据 的 趋势 对 于 服务 器 
级 别 偶尔 停顿 的 敏感 性 很 高 。 一 般 发 生 此 类 问题 时 ， 根 据 原因 的 不 同 
和 应 用 连接 数据 库 方 式 的 不 同 ， 每 秒 的 查询 数 一 般 会 下 跌 ， 而 其 他 两 
个 则 至 少 有 一 个 会 出 现 兴 刺 。 在 这 个 例子 中 ， 应 用 使 用 了 连接 池 ， 所 
以 Threads_connected 没 有 变化 。 但 正在 执行 查询 的 线程 数 明 显 上 升 ， 
同时 每 秒 的 查询 数 相 比 正 常数 据 有 严重 的 下 跌 。 


如 何 解析 这 个 现象 呢 ? 和 赁 猜测 有 一 定 的 风险 。 但 在 实践 中 有 两 个 
原因 的 可 能 性 比较 大 。 其 中 之 一 是 服务 器 内 部 磁 到 了 某 种 瓶颈 ， 导 致 
新 查询 在 开始 执行 前 因为 需要 获取 老 查 询 正在 等 待 的 锁 而 造成 堆积 。 
这 一 类 的 锁 一 般 也 会 对 应 用 服务 器 造成 后 端 压力 ， 使 得 应 用 服务 器 也 
出 现 排队 问题 。 另 外 一 个 常见 的 原因 是 服务 区 突然 遇 到 了 大 量 碍 询 请 
求 的 冲击 ， 比 如 前 端的 memcached 突 然 失 效 导 致 的 查询 风暴 。 


这 个 命令 每 秒 输出 一 行 数据 ， 可 以 运行 几 个 小 时 或 者 几 天 ， 然 后 
将 结果 绘制 成 图 形 ， 这 样 就 可 以 方便 地 发 现 是 否 有 趋势 的 突变 。 如 果 
问题 确实 是 间 欣 性 的 ， 发 生 的 频率 又 较 低 ， 也 可 以 根据 需要 尽 可 能 长 
时 间 地 运行 此 命令 ， 直 到 发 现 问题 再 回头 来 看 输出 结果 。 大 多 数 情况 
下 ， 通 过 输出 结果 都 可 以 更 明确 地 定位 问题 。 


使 用 SHOW PROCESSLIST 


这 个 方法 是 通过 不 停 地 捕获 SHOW PROCESSLIST 的 输出 ， 来 观 

察 是 否 有 大 量 线程 处 于 不 正常 的 状态 或 者 有 其 他 不 正常 的 特征 。 例 如 

查询 很 少 会 长 时 间 处 于 “statistics” 状 态 ， 这 个 状态 一 般 是 措 服务 器 在 查 

询 优化 阶段 如 何 确定 表 关 联 的 顺序 一 一 通常 都 是 非常 快 的 。 另 外 ， 也 

很 少 会 见 到 大 量 线程 报告 当前 连接 用 户 是 “未 经 验证 的 用 户 
(Unauthenticated 


user) ”这 只 是 在 连接 握手 的 中 间 过 程 中 的 状态 ， 当 客户 端 等 待 
输入 用 于 登录 的 用 户 信息 的 时 候 才 会 出 现 。 


使 用 SHOW PROCESSLIST 命 令 时 ， 在 尾部 加 上 \G 可 以 垂直 的 方 
式 输出 结果 ， 这 很 有 用 ， 因 为 这 样 会 将 每 一 行 记录 的 每 一 列 都 单独 输 
出 为 一 行 ， 这 样 可 以 方便 地 使 用 sortluniqlsort 一 类 的 命令 来 计算 某 个 列 
值 出 现 的 次 数 : 


$ mysql -e 'SHOW PROCESSLIST\G' | grep State: | sort | uniq 
-c | sort -rn 


744 State: 


67 State: Sending data 
36 State: freeing items 
State: NULL 
State: end 


State: Updating 


8 

6 

4 

4 State: cleaning up 
2 State: update 

1 State: Sorting result 
1 


State: logging slow query 


如 果 要 查看 不 同 的 列 ， 只 需要 修改 grep 的 模式 即 可 。 在 大 多 数 案 
例 中 ，State 列 都 非常 有 用 。 从 这 个 例子 的 输出 中 可 以 看 到 ， 有 很 多 线 
程 处 于 查询 执行 的 结束 部 分 的 状态 ， 包 括 “freeing items”、 “end”、 
“cleaning up” 和 “logging slow query”。 事 实 上 ， 在 案例 中 的 这 台 服 务 器 
上 ， 同 样 模式 或 类 似 的 输出 采样 出 现 了 很 多 次 。 大 量 的 线程 处 于 
“freeing items” 状 态 是 出 现 了 大 量 有 问题 查询 的 很 明显 的 特征 和 指示 。 


用 这 种 技术 查找 问题 ， 上 面 的 命令 行 不 是 唯一 的 方法 。 如 果 
MySQL 服务 器 的 版 本 较 新 ， 也 可 以 直接 查询 
INFORMATION_SCHEMA 中 的 PROCESSLIST 表 ; 或 者 使 用 innotop 工 
具 以 较 高 的 频率 刷新 ， 以 观察 屏幕 上 出 现 的 不 正常 查询 堆积 。 上 面 演 
示 的 这 个 例子 是 由 于 InnoDB 内 部 的 争 用 和 脏 块 刷新 所 导致 ， 但 有 了 时候 
原因 可 能 比 这 个 要 简单 得 多 。 一 个 经 典 的 例子 是 很 多 查询 处 于 
“Locked" 状 态 ， 这 是 MyISAM 的 一 个 典型 问题 ， 它 的 表 级 别 锁定 ， 在 
写 请 求 较 多 时 ， 可 能 迅速 导致 服务 器 级 别 的 线程 堆积 。 


使 用 查询 日 志 


如 果 要 通过 查询 日 志 发 现 问题 ， 需 要 开启 慢 查 询 日 志 并 在 全 局 级 
别 设置 long_query_time 为 0， 并 且 要 确认 所 有 的 连接 都 采用 了 新 的 设 
置 。 这 可 能 需要 重 置 所 有 连接 以 使 新 的 全 局 设置 生效 ; 或 者 使 用 
Percona Server 的 一 个 特性 ， 可 以 在 不 断 开 现 有 连接 的 情况 下 动态 地 使 
设置 强制 生效 。 


如 果 因 为 某 些 原因 ， 不 能 设置 慢 查 询 日 志 记 录 所 有 的 查询 ， 也 可 
以 通过 tcpdump 和 pt-query-digest 工 具 来 模拟 替代 。 要 注意 找到 吞吐 量 
突然 下 降 时 间 段 的 日 志 。 查 询 是 在 完成 阶段 才 写 入 到 慢 查 询 日 志 的 ， 
所 以 堆积 会 造成 大 量 查询 处 于 完成 阶段 ， 直 到 阻塞 其 他 查询 的 资源 占 
用 者 释放 资源 后 ， 其 他 的 查询 才能 执行 完成 。 这 种 行为 特征 的 一 个 好 
处 是 ， 当 遇 到 吞吐 量 突然 下 降 时 ， 可 以 归咎 于 吞吐 量 下 降 后 完成 的 第 
一 个 查询 《有 时 候 也 不 一 定 是 第 一 个 查询 。 当 某 些 查询 被 阻塞 时 ， 其 
他 查询 可 以 不 受 影响 继续 运行 ， 所 以 不 能 完全 依赖 这 个 经 验 ) 。 


再 重申 一 次 ， 好 的 工具 可 以 帮助 诊断 这 类 问题 ， 否 则 要 人 工 去 几 
自 GB 的 碍 询 日 志 中 找 原 因 。 下 面 的 例子 只 有 一 行 代码 ， 却 可 以 根据 
MySQL 每 秒 将 当前 时 间 写 入 日 志 中 的 模式 统计 每 秒 的 查询 数量 : 


$ awk '/A# Time:/{print$3,$4, c;c=0}/4# User/{c++}' slow- 
query.log 
080913 21:52:17 51 
080913 21:52:18 29 
080913 21:52:19 34 
080913 21:52:20 33 
080913 21:52:21 38 
080913 21:52:22 15 


080913 21:52:23 47 
080913 21:52:24 96 
080913 21:52:25 6 
080913 21:52:26 66 
080913 21:52:27 37 
080913 21:52:28 59 


从 上 面 的 输出 可 以 看 到 有 吞吐 量 突然 下 降 的 情况 发 生 ， 而 且 在 下 
降 之 前 还 有 一 个 突然 的 高 峰 ， 仅 从 这 个 输出 而 不 去 查询 当时 的 详细 信 
息 很 难 确定 发 生 了 什么 ， 但 应 该 可 以 说 这 个 突然 的 高 峰 和 随后 的 下 降 
一 定 有 关联 。 不 管 怎么 说 ， 这 种 现象 都 很 奇怪 ， 值 得 去 日 志 中 挖掘 该 
时 间 段 的 详细 信息 《实际 上 通过 日 志 的 详细 信息 ， 可 以 发 现 突然 的 高 
峰 时 段 有 很 多 连接 被 断 开 的 现象 ， 可 能 是 有 一 台 应 用 服务 器 重启 导致 
的 。 所 以 不 是 所 有 的 问题 都 是 MySQL 的 问题 ) 。 


理解 发 现 的 问题 (Making sense of the findings) 


可 视 化 的 数据 最 具有 说 服 力 。 上 面 只 演示 了 很 少 的 几 个 例子 ,但 
在 实际 情况 中 ， 利 用 上 面 的 工具 诊断 时 可 能 产生 大 量 的 输出 结果 。 可 
以 选择 用 gnuplot 或 R， 或 者 其 他 绘图 工具 将 结果 绘制 成 图 形 。 这 些 绘 
图 工具 速度 很 快 ， 比 电子 表格 要 快 得 多 ， 而 且 可 以 对 图 上 的 一 些 异常 
的 地 方 进行 缩放 ， 这 比 在 终端 中 通过 滚动 条 翻 看 文字 要 好 用 得 多 ， 除 
Ane SS a Bl Haye EMR, 


我 们 建议 诊断 间 题 时 先 使 用 前 两 种 方法 : SHOW STATUS 和 
SHOW PROCESSLIST。 这 两 种 方法 的 开销 很 低 ， 而 且 可 以 通过 简单 
的 shell 脚 本 或 者 反复 执行 的 查询 来 交互 式 地 收集 数据 。 分 析 慢 查询 日 


志 则 相对 要 困难 一 些 ， 经 单 会 发 现 一 些 蛛丝马迹 ， 但 仔细 去 研究 时 可 
能 又 消失 了 。 这 样 我 们 很 容易 会 认为 其 实 没 有 问题 。 
发 现 输出 的 图 形 异常 意味 着 什么 ? 通常 来 说 可 能 是 查询 在 某 个 地 


方 排险 了， 或 者 某 种 查询 的 量 突然 闫 升 了 。 接 下 来 的 任务 就 是 找 出 这 
些 原因 。 


3.4.2 ”捕获 诊断 数据 


Capturing Diagnostic Data 


当 出 现 间歇 性 问题 时 ， 需 要 尽 可 能 多 地 收集 所 有 效 据 ， 而 不 只 是 
问题 出 现时 的 数据 。 虽 然 这 样 会 收集 大 量 的 诊断 数据 ， 但 总 比 真 正 能 
够 诊断 问题 的 数据 没有 被 收集 到 的 情况 要 好 。 


在 开始 之 前 ， 需 要 搞 清 楚 两 件 事 : 
1. 一 个 可 靠 且 实时 的 “触发 器 ">， 也 就 是 能 区 分 什么 时 候 问题 出 现 的 


方法 。 
2. 一 个 收集 诊断 数据 的 工具 。 


诊断 触发 器 


触发 器 非常 重要 。 这 是 在 问题 出 现时 能 够 捕获 数据 的 基础 。 有 两 
个 常见 的 问题 可 能 导致 无 法 达到 预期 的 结果 : 误 报 (false positive) 或 
者 漏 检 (false negative) 。 误 报 是 措 收 集 了 很 多 诊断 数据 ， 但 期 间 其 实 
没有 发 生 问题 ， 这 可 能 浪费 时 间 ， 而 且 令 人 诅 形 。 而 漏 检 则 指 在 问题 


出 现时 没有 捕获 到 数据 ， 错 失 了 机 会 ， 一 样 地 浪费 时 间 。 所 以 在 开始 
收集 数据 前 多 花 一 点 时 间 来 确认 触发 器 能 够 真正 地 识别 问题 是 划算 
的 。 


那么 好 的 触发 器 的 标准 是 什么 呢 ? 像 前 面 的 例子 展示 的 ， 

Threads_running 的 趋势 在 出 现 问题 时 会 比较 敏感 ， 而 没有 问题 时 则 比 
较 平稳 。 另 外 SHOW PROCESSLIST 中 线程 的 异常 状态 尖峰 也 是 个 不 
错 的 指标 。 当 然 除 此 之 外 还 有 很 多 的 方法 ,包括 SHOW INNODB 
STATUS 的 特定 输出 、 服 务 器 的 平均 负载 尖峰 等 。 关 键 是 找到 一 些 能 
和 正常 时 的 阅 值 进行 比较 的 指标 。 通 常情 况 下 这 是 一 个 计数 ， 比 如 正 
在 运行 的 线程 的 数量 、 处 于 “freeing items” 状 态 的 线程 的 数量 等 。 当 要 
计算 线程 某 个 状态 的 数量 时 ，grep 的 -c 选 项 非常 有 用 : 


$ mysql -e 'SHOW PROCESSLIST\G' | grep -c "State: freeing 
items" 
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选择 一 个 合适 的 阅 值 很 重要 ， 既 要 足够 高 ， 以 确保 在 正常 时 不 会 
被 触发 ; 又 不 能 太 高 ， 要 确保 问题 发 生 时 不 会 错过 。 另 外 要 注意 ， 要 
在 问题 开始 时 就 捕获 数据 ， 就 更 不 能 将 阅 值 设置 得 太 高 。 问 题 持续 上 
升 的 趋势 一 般 会 导致 更 多 的 问题 发 生 ， 如 果 在 问题 导致 系统 快要 月 演 
时 才 开 始 捕 获 数据 ， 就 很 难 诊断 到 最 初 的 根本 原因 。 如 果 可 能 ， 在 问 
题 还 是 涓涓 细 流 的 时 候 就 要 开始 收集 数据 ， 而 不 要 等 到 波涛 测 涌 才 开 
台 。 举 个 例子 ，Threads_connected 偶 尔 出 现 非常 高 的 尖峰 值 ， 在 几 分 
钟 时 间 内 会 从 100 冲 到 5000 或 者 更 高 ， 所 以 设置 阐 值 为 4999 也 可 以 捕获 
到 问题 ， 但 为 什么 非 要 等 到 这 么 高 的 时 候 才 收集 数据 呢 ? 如 果 在 正常 
时 该 值 一 般 不 超过 150， 将 阅 值 设 置 为 200 或 者 300 会 更 好 。 


到 前 面 关 于 Threads_running 的 例子 ， 正 常情 况 下 的 并 发 度 不 超 
过 10。 但 是 阅 值 设置 为 10 并 不 是 一 个 好 注意 ， 很 可 能 会 导致 很 多 误 
报 。 即 使 设置 为 15 也 不 够 ， 可 能 还 是 会 有 很 多 正常 的 波动 会 到 这 个 范 
围 。 当 并 发 运行 线程 到 15 的 时 候 可 能 也 会 有 少量 堆积 的 情况 ， 但 可 能 
还 没 到 问题 的 引爆 点 。 但 也 应 该 在 糟糕 到 一 眼 就 能 看 出 问题 前 就 清晰 
地 识别 出 来 ， 对 于 这 个 例子 ， 我 们 建议 阅 值 可 以 设置 为 20。 


我 们 当然 希望 在 问题 确实 发 生 时 能 捕获 到 数据 ， 但 有 时 候 也 需要 
稍微 等 待 一 下 以 确保 不 是 误 报 或 者 短暂 的 尖峰 。 所 以 ， 最 后 的 触发 条 
件 可 以 这 样 设 置 : 每 秒 监控 状态 值 ， 如 果 Threads_running 连 续 5 秒 超 过 
20， 就 开始 收集 诊断 数据 《顺便 说 一 句 ， 我 们 的 例子 中 问题 只 持续 了 3 
秒 就 消失 了 ， 这 是 为 了 使 例子 简单 而 设置 的 。3 秒 的 故障 不 容易 诊断 ， 
而 我 们 碰 到 过 的 大 部 分 问题 持续 时 间 都 会 更 长 一 些 ) 。 


所 以 我 们 需要 利用 一 种 工具 来 监控 服务 器 ， 当 达到 触发 条 件 时 能 
收集 数据 。 当 然 可 以 自己 编写 脚本 来 实现 ， 不 过 不 用 那么 麻烦 ， 
Percona Toolkit 中 的 pt-stalk 就 是 为 这 种 情况 设计 的 。 这 个 工具 有 很 多 有 
用 的 特性 ， 只 要 碰 到 过 类 似 问题 就 会 明白 这 些 特性 的 必要 性 。 例 如 ， 
它 会 监控 磁盘 的 可 用 空间 ， 所 以 不 会 因为 收集 太 多 的 数据 将 空间 耗 尽 
而 导致 服务 器 月 演 。 如 果 之 前 磁 到 过 这 样 的 情况 ， 你 就 会 理解 这 一 点 
Lo 


pt-stalk 的 用 法 很 简单 。 可 以 配置 需要 监控 的 变量 、 阅 值 、 检 查 的 
频率 等 。 还 支持 一 些 比 实际 需要 更 多 的 花哨 特性 ， 但 在 这 个 例子 中 有 
这 些 已 经 足够 了 。 在 使 用 之 前 建议 先 阅读 附带 的 文档 。pt-stalk 还 依赖 
于 另外 一 个 工具 执行 真正 的 收集 工作 ， 接 下 来 会 讨论 。 


需要 收集 什么 样 的 数据 


现在 已 经 确定 了 诊断 触发 器 ， 可 以 开始 启动 一 些 进程 来 收集 数据 
了 。 但 需要 收集 什么 样 的 数据 呢 ? 就 像 前 面 说 的 ， 答 案 是 尽 可 能 收集 
所 有 能 收集 的 数据 ， 但 只 在 需要 的 时 间 段 内 收集 。 包 括 系统 的 状态 、 
CPU 利用 率 、 磁 盘 使 用 率 和 可 用 空间 、ps 的 输出 采样 、 内 存 利用 率 ， 
以 及 可 以 从 MySQL 获得 的 信息 ， 如 SHOW STATUS 、SHOW 
PROCESSLIST 和 SHOW INNODB STATUS。 这 些 在 诊断 问题 时 都 需要 
到 〈 可 能 还 会 有 更 多 ) o 


执行 时 间 包括 用 于 工作 的 时 间 和 等 待 的 时 间 。 当 一 个 未 知 问题 发 
生 时 ， 一 般 来 说 有 两 种 可 能 : 服务 器 需要 做 大 量 的 工作 ， 从 而 导致 大 
量 消 耗 CPU; 或 者 在 等 待 某 些 资源 被 释放 。 所 以 需要 用 不 同 的 方法 收 
集 诊断 数据 ， 来 确认 是 何 种 原因 : 剖析 报告 用 于 确认 是 否 有 太 多 工 
作 ， 而 等 待 分 析 则 用 于 确认 是 否 存在 大 量 等 待 。 如 果 是 未 知 的 问题 ， 
怎么 知道 将 精力 集中 在 哪个 方面 呢 ? 没有 更 好 的 办 法 ， 所 以 只 能 两 种 
效 据 都 尽量 收集 。 


在 GNU/Linux 平 台 ， 可 用 于 服务 器 内 部 诊断 的 一 个 重要 工具 是 
oprofile。 后 面 会 展示 一 些 例 子 。 也 可 以 使 用 strace 训 析 服 务 器 的 系统 
调用 ， 但 在 生产 环境 中 使 用 它 有 一 定 的 风险 。 后 面 还 会 继续 讨论 它 。 
如 果 要 剖析 查询 ， 可 以 使 用 tcpdump。 大 多 数 MySQL 版 本 无 法 方便 地 
打开 和 关闭 慢 碍 询 日 志 ， 此 时 可 以 通过 监听 TCP 流 量 来 模拟 。 另 外 ， 
网 络 流量 在 其 他 一 些 分 析 中 也 非常 有 用 。 


对 于 等 待 分 析 ， 常 用 的 方法 是 GDB 的 堆栈 跟踪 (3 。MySQL 内 的 
线程 如 果 卡 在 一 个 特定 的 地 方 很 长 时 间 ， 往 往 都 有 相同 的 堆栈 跟 蹊 信 


息 。 跟 踪 的 过 程 是 先 启动 gdb， 然 后 附加 (attach) 到 mysqld 进 程 ， 将 
所 有 线程 的 堆栈 都 转 储 出 来 。 然 后 可 以 利用 一 些 简短 的 脚本 将 类 似 的 
堆栈 跟踪 信息 做 汇总 ， 再 利用 sort|uniqlsort 的 “魔法 ”排序 出 总 计 最 多 的 
堆栈 信息 。 稍 后 将 演示 如 何 用 pt-pmp 工 具 来 完成 这 个 工作 。 


也 可 以 使 用 SHOW PROCESSLIST 和 SHOW INNODB STATUS 的 
快照 信息 观察 线程 和 事务 的 状态 来 进行 等 待 分 析 。 这 些 方法 都 不 完 
美 ， 但 实践 证 明 还 是 非常 有 帮助 的 。 


收集 所 有 的 数据 听 起 来 工作 量 很 大 。 或 许 读者 之 前 已 经 做 过 类 似 
的 事情 ， 但 我 们 提供 的 工具 可 以 提供 一 些 帮 助 。 这 个 工具 名 为 pt- 
collect， 也 是 Percona Toolkit 中 的 一 员 。pt-collect 一 般 通 过 pt-stalk 来 调 
用 。 因 为 涉及 很 多 重要 数据 的 收集 ， 所 以 需要 用 root 权 限 来 运行 。 默 
认 情 况 下 ， 局 动 后 会 收集 30 秒 的 数据 ， 然 后 退出 。 对 于 大 多 数 问题 的 
诊断 来 说 ， 这 已 经 足够 ， 但 如 果 有 误 报 (false positive) 的 问题 出 现 ， 
则 可 能 收集 的 信息 就 不 够 。 这 个 工具 很 容易 下 载 到 ， 并 且 不 需要 任何 
配置 ， 配 置 都 是 通过 pt-stalk 进 行 的 。 系 统 中 最 好 安装 gdb 和 oprofile， 
然后 在 pt-stalk 中 配置 使 用 。 另 外 mysqld 也 需要 有 调试 符号 信息 (6)。 当 
触发 条 件 满足 时 ，pt-collect 会 很 好 地 收集 完整 的 数据 。 它 也 会 在 目录 
中 创建 时 间 戳 文件 。 在 本 书写 作 之 际 ， 这 个 工具 是 基于 GNU/Linux 
的 ， 后 续 会 迁移 到 其 他 操作 系统 ， 这 是 一 个 好 的 开始 。 


解释 结果 数据 


如 果 已 经 正确 地 设置 好 触发 条 件 ， 并 且 长 时 间 运 行 pt-stalk， 则 只 
需要 等 待 足够 长 的 时 间 来 捕获 几 次 问题 ， 融 能 够 得 到 大 量 的 数据 来 进 
行 般 选 。 从 哪里 开始 最 好 呢 ? 我 们 建议 先 根据 两 个 目的 来 查看 一 些 东 


西 。 第 一 ， 检 查 问题 是 否 真 的 发 生 了 ， 因 为 有 很 多 的 样本 数据 需要 检 
查 ， 如 果 是 误 报 就 会 白白 瀛 费 大 量 的 时 间 。 第 二 ， 是 否 有 非常 明显 的 
跳跃 性 变化 。 


“fp, 在 服务 器 正常 运行 时 捕获 一 些 样本 数据 也 很 重要 ， 而 不 只 是 在 有 问题 时 捕获 数 
据 。 这 样 可 以 帮助 对 比 确认 是 否 某 些 样本 ， 或 者 样本 中 的 某 部 分 数据 有 异常 。 例 如 ， 在 查看 
进程 列表 (process list) 中 查询 的 状态 时 ， 可 以 回答 一 些 诸如 “大 量 查询 处 于 正在 排序 结果 的 


状态 是 不 是 正常 的 ”的 问题 。 


查看 异常 的 查询 或 事务 的 行为 ， 以 及 异常 的 服务 器 内 部 行为 通常 
都 是 最 有 收获 的 。 查 询 或 事务 的 行为 可 以 显示 是 否 是 由 于 使 用 服务 器 
的 方式 导致 的 问题 : 性 能 低下 的 SQL 查询 、 使 用 不 当 的 索引 、 设 计 粳 
糕 的 数据 库 逻 辑 架 构 等 。 通 过 抓 取 TCP 流 量 或 者 SHOW PROCESSLIST 
输出 ， 可 以 获得 查询 和 事务 出 现 的 地 方 ， 从 而 知道 用 户 对 数据 库 进行 
了 什么 操作 。 通 过 服务 器 的 内 部 行为 则 可 以 清楚 服务 器 是 否 有 bug， 或 
者 内 部 的 性 能 和 扩展 性 是 否 有 问题 。 这 些 信息 在 类 似 的 地 方 都 可 以 看 
到 ， 包 括 在 oprofile 或 者 gdb 的 输出 中 ， 但 要 理解 则 需要 更 多 的 经 验 。 


如 果 遇 到 无 法 解释 的 错误 ， 则 最 好 将 收集 到 的 所 有 数据 打包 ， 提 
交 给 技术 支持 人 员 进 行 分 析 。MySQL 的 技术 支持 专家 应 该 能 够 从 数据 
中 分 析出 原因 ， 详 细 的 数据 对 于 支持 人 员 来 说 非常 重要 。 另 外 也 可 以 
将 Percona Toolkit 中 另外 两 款 工 具 pt-mysql-summary 和 pt-summary 的 输 
出 结果 打包 ， 这 两 个 工具 会 输出 MySQL 的 状态 和 配置 信息 ， 以 及 操作 
系统 和 硬件 的 信息 。 


Percona Toolkit 还 提供 了 一 款 快 速 检 查收 集 到 的 样本 数据 的 工具 : 
pt-sift。 这 个 工具 会 轮流 导航 到 所 有 的 样本 数据 ， 得 到 每 个 样本 的 汇总 


言 息 。 如 果 需 要 ， 也 可 以 钻 取 到 详细 信息 。 使 用 此 工具 至 少 可 以 少 打 
很 多 字 ， 少 敲 很 多 次 键盘 。 


前 面 我 们 演示 了 状态 计数 器 和 线程 状态 的 例子 。 在 本 章 结束 之 
前 ， 将 再 给 出 一 些 oprofile 和 gdb 的 输出 例子 。 下 面 是 一 个 问题 服务 器 
上 的 oprofile 输 出 ， 你 能 找到 间 题 吗 ? 


samples % image name app name symbol 
name 
893793 31.1273 /no-vmlinux /no-vmlinux (no 
symbols) 
325733 11.3440 mysqld mysqld 


Query_cache::free_memory_block() 


117732 4.1001 libc libc (no 
symbols) 
102349 3.5644 mysqld mysqld 


my_hash_sort_bin 


76977 2.6808 mysqld mysqld 
MYSQLparse() 

71599 2.4935 libpthread libpthread 
pthread_mutex_trylock 

52203 1.8180 mysqld mysqld 


read_view_open_now 


46516 1.6200 mysqld mysqld 
Query_cache::invalidate_query_block_list() 


42153 1.4680 mysqld mysqld 


Query_cache: :write_result_data() 

37359 1.3011 mysqld mysqld 
MYSQL1lex( ) 

35917 1.2508 libpthread libpthread 
__pthread_mutex_unlock_usercnt 

34248 1.1927 mysqld mysqld 


__intel_new_memcpy 


如 果 你 的 答案 是 “查询 缓存 ”， 那 么 茶 喜 你 答对 了 。 人 在 这 里 查询 绥 
存 导致 了 大 量 的 工作 ， 并 拖 慢 了 整个 服务 器 。 这 个 问题 是 一 夜 之 间 突 
然 发 生 的 ， 系 统 变 慢 了 50 倍 ， 但 这 期 间 系统 没有 做 过 任何 其 他 变更 。 
关闭 查询 缓存 后 系统 性 能 恢复 了 正常 。 这 个 例子 比较 简单 地 解释 了 服 
务 器 内 部 行为 对 性 能 的 影响 。 


另外 一 个 重要 的 关于 等 待 分 析 的 性 能 瓶颈 分 析 工 具 是 gdb 的 堆栈 跟 
蹊 。 下 面 是 对 一 个 线程 的 堆栈 跟踪 的 输出 结果 ， 为 了 便于 印刷 做 了 一 
些 格式 化 : 


Thread 992 (Thread 0x7f6ee0111910 (LWP 31510)): 

#0 Ox0000003be560b2F9 in pthread_cond_wait@@GLIBC_2.3.2 () from 
/libpthread.so.0 

#1 0x00007f6ee14F0965 in os_event_wait_low () at 
os/osOsync.c:396 


#2 0x00007f6ee1531507 in srv_conc_enter_innodb () at 


srv/srvOsrv.c:1185 


#3 @©x00007f6ee14c906a in innodb_srv_conc_enter_innodb () at 


handler/ha_innodb.cc:609 


#4 ha_innodb::index_read () at handler/ha_innodb.cc:5057 
#5 0x00000000006538c5 in ?? () 

#6 0x0000000000658029 in sub_select() () 

#7 0x0000000000658e25 in ?? () 

#8 0x00000000006677c0 in JOIN: :exec() () 

#9 0x000000000066944a in mysql_select() () 

#10 0x0000000000669ea4 in handle_select() () 

#11 0X00000000005ff89a in ?? () 

#12 0x0000000000601c5e in mysql_execute_command() () 

#13 0x000000000060701c in mysql_parse() () 

#14 0x000000000060829a in dispatch_command() () 

#15 Ox0000000000608b8a in do_command(THD*) () 

#16 O0x00000000005fbdid in handle_one_connection () 

#17 0x0000003be560686a in start_thread () from 
/11b64/libpthread.so.0 

#18 Ox0000003be4ede3bd in clone () from /1ib64/libc.so.6 


#19 Ox0000000000000000 in ?? () 


堆栈 需要 自 下 而 上 来 看 。 也 就 是 说 ， 线 程 当前 正在 执行 的 是 
pthread_cond_wait 国 数 ， 这 是 由 os_event_wait_ low 调 用 的 。 继 续 往 下 ， 
看 起 来 是 线程 试图 进入 到 InnoDB 内 核 (srv_conc_enter_innodb) , {8 
被 放 入 了 一 个 内 部 队列 中 (os_event_wait_low) ， 原 因应 该 是 内 核 中 
的 线程 数 已 经 超过 innodb_thread_concurrency 的 限制 。 当 然 ， 要 真正 地 
发 挥 堆栈 跟踪 的 价值 需要 将 很 多 的 信息 聚合 在 一 起 来 看 。 这 种 技术 是 
由 Domas Mituzas 推 广 的 ， 他 以 前 是 MySQL 的 支持 工程 师 ， 开 发 了 著 
名 的 穷人 剖析 器 “poor man's profiler”。 他 目前 在 Facebook 工 作 ， 和 其 他 


人 一 起 开发 了 更 多 的 收集 和 分 析 堆 栈 跟踪 的 工具 。 可 以 从 他 的 这 个 网 
站 发 现 更 多 的 信息 : http:/www.poormansprofiler.orgo 


在 Percona Toolkit 中 我 们 也 开发 了 一 个 类 似 的 穷人 剖析 器 ， 叫 做 pt 
pmp。 这 是 一 个 用 shel 和 awk 脚本 编写 的 工具 ， 可 以 将 类 似 的 堆栈 跟踪 
输出 合并 到 一 起 ， 然 后 通过 sortluniqlsort 将 最 常见 的 条 目 在 最 前 面 输 
出 。 下 面 是 一 个 堆栈 跟踪 的 完整 例子 ， 通 过 此 工具 将 重要 的 信息 展示 
了 出 来 。 使 用 了 -15 选 项 指定 了 堆栈 跟踪 不 超过 5 层 ， 以 免 因 太 多 前 面 
部 分 相同 而 后 面部 分 不 同 的 跟踪 信息 而 导致 无 法 聚合 到 一 起 的 情况 ， 
这 样 才 能 更 好 地 显示 到 底 在 哪里 产生 了 等 待 : 


$ pt-pmp -1 5 stacktraces.txt 
507 
pthread_cond_wait, one_thread_per_connection_end, handle_one_conn 
ection, 


start_thread, clone 


pthread_cond_wait, os_event_wait_low, srv_conc_enter_innodb, 


innodb_srv_conc_enter_innodb, ha_innodb: :index_read 


83 
pthread_cond_wait,os_event_wait_low, sync_array_wait_event, mutex 
_Spin_wait, 

mutex_enter_func 

10 

pthread_cond_wait, os_event_wait_low, os_aio_simulated_handle, fil 


_aio_wait, 


io_handler_thread 


pthread_cond_wait, os_event_wait_low, srv_conc_enter_innodb, 


innodb_srv_conc_enter_innodb, ha_innodb: :general_fetch 

5 
pthread_cond_wait,os_event_wait_low, sync_array_wait_event, rw_lo 
ck_s_lock_spin, 


rw_lock_s_lock_func 


1 sigwait, signal_hand, start_thread, clone, ?? 

1 
select,os_thread_sleep, srv_lock_timeout_and_monitor_thread, star 
t_thread, clone 

1 
select,os_thread_sleep, srv_error_monitor_thread, start_thread,cl 
one 

1 select, handle_connections_sockets, main 


1 read, vio_read_buff, ::??,my_net_read, cli_safe_read 


1 
pthread_cond_wait,os_event_wait_low, sync_array_wait_event, rw_lo 
ck_x_lock_low, 


rw_lock_x_lock_func 


1 
pthread_cond_wait,MYSQL_BIN_LOG: :wait_for_update,mysql_binlog_s 
end, 


dispatch_command, do_command 


fsync,os_file_fsync,os_file_ flush, fil_flush, log_write_up_to 


第 一 行 是 MySQL 中 非常 典型 的 空 闪 线程 的 一 种 特征 ， 所 以 可 以 忽 
略 。 第 二 行 才 是 最 有 意思 的 地 方 ， 看 起 来 大 量 的 线程 正在 准备 进入 到 
InnoDB 内 核 中 ， 但 都 被 阻塞 了 。 从 第 三 行 则 可 以 看 到 许多 线程 都 在 等 
待 某 些 互 斥 锁 ， 但 具体 的 是 什么 锁 不 清 切 ， 因 为 堆栈 跟踪 更 深 的 层次 
被 截断 了 。 如 果 需 要 确切 地 知道 是 什么 互 斥 锁 ， 则 需要 使 用 更 大 的 -1 
选项 重 跑 一 次 。 一 般 来 说 ， 这 个 堆栈 跟踪 显示 很 多 线程 都 在 等 待 进 入 
到 InnoDB， 这 是 为 什么 呢 ? 这 个 工具 并 不 清楚 ， 需 要 从 其 他 的 地 方 来 
入 手 。 


从 前 面 的 堆栈 跟踪 和 oprofile 报 表 来 看 ， 如 果 不 是 MySQL 和 
InnoDB 源 码 方面 的 专家 ， 这 种 类 型 的 分 析 很 难 进 行 。 如 果 用 户 在 进行 
此 类 分 析 时 碰 到 问题 ， 通 常 需要 求助 于 这 样 的 专家 才 行 。 


在 下 面 的 例子 中 ， 通 过 剖析 和 等 待 分 析 都 无 法 发 现 服务 器 的 问 
题 ， 需 要 使 用 另外 一 种 不 同 的 诊断 技术 。 


3.4.3 一 个 诊断 案例 


在 本 节 中 ， 我 们 将 逐步 演示 一 个 客户 实际 碰 到 的 间歇 性 性 能 问题 
的 诊断 过 程 。 这 个 案例 的 诊断 需要 具备 MySQL、InnoDB 和 GNU/Linux 
的 相关 知识 。 但 这 不 是 我 们 要 讨论 的 重点 。 要 尝试 从 疯狂 中 找到 条 
理 : 阅读 本 节 并 保持 对 之 前 的 假设 和 猜测 的 关注 ， 保 持 对 之 前 基于 合 
理性 和 基于 可 度量 的 方式 的 关注 ， 等 等 。 我 们 在 这 里 深入 研究 一 个 具 
体 和 详细 的 案例 ， 为 的 是 找到 一 个 简单 的 一 般 性 的 方法 。 


在 尝试 解决 其 他 人 提出 的 问题 之 前 ， 先 要 明确 两 件 事情 ， 并 且 最 
好 能 够 记录 下 来 ， 以 免 遗漏 或 者 遗忘 : 


1. 首先 ， 问 题 是 什么 ? 一 定 要 清晰 地 描述 出 来 ， 费 力 去 解决 一 个 错 
误 的 问题 是 常 有 的 事 。 在 这 个 案例 中 ， 用 户 抱怨 说 每 隔 一 两 天 ， 
服务 器 就 会 拒绝 连接 ， 报 max_connections 错 误 。 这 种 情况 一 般 会 
持续 几 秒 到 几 分 钟 ， 发 生 的 时 间 非 常 随机 。 

2. 其 次 ， 为 解决 问题 已 经 做 过 什么 操作 ? 在 这 个 案例 中 ， 用 户 没 有 
为 这 个 问题 做 过 任何 操作 。 这 个 信息 非常 有 帮助 ， 因 为 很 少 有 其 
他 事情 会 像 另 外 一 个 人 来 描述 一 件 事 情 发 生 的 确切 顺序 和 曾 做 过 
的 改变 及 其 后 果 一 样 难以 理解 (尤其 是 他 们 还 是 在 经 过 几 个 不 眠 
之 夜 后 满嘴 咖啡 味道 地 在 电话 里 绝望 呐喊 的 时 候 ) 。 如 果 一 台 服 
务 器 遭受 过 未 知 的 变更 ， 产 生 了 未 知 的 结果 ， 问 题 就 更 难 解决 
了 ， 尤 其 是 时 间 又 非常 有 限 的 时 候 。 


搞 清楚 这 两 个 问题 后 ， 就 可 以 开始 了 。 不 仅 需 要 去 了 解 服 务 器 的 
行为 ， 也 需要 花 点 时 间 去 梳理 一 下 服务 器 的 状态 、 参 数 配 置 ， 以 及 软 
硬件 环境 。 使 用 pt-summary 和 pt-mysql-summary 工 具 可 以 获得 这 些 信 
息 。 简 单 地 说 ， 这 个 例子 中 的 服务 器 有 16 个 CPU 核 心 ，12GB 内 存 ， 数 
据 量 有 900MB， 且 全 部 采用 InnoDB 引 擎 ， 存 储 在 一 块 S5SD 固 态 硬 盘 
上 。 服 务 器 的 操作 系统 是 GNU/Linux、MySQL 版 本 5.1.37， 使 用 的 存 
储 引 擎 版 本 是 InnoDB plugin 1.0.4。 之 前 我 们 已 经 为 这 个 客户 解决 过 一 
些 异常 问题 ， 所 以 对 其 系统 已 经 比较 了 解 。 过 去 数据 库 从 来 没有 出 过 
问题 ， 大 多 数 问题 都 是 由 于 应 用 程序 的 不 良 行为 导致 的 。 初 步 检 查 了 
服务 器 也 没有 发 现 明显 的 问题 。 查 询 有 一 些 优化 的 空间 ， 但 大 多 数 情 
况 下 响应 时 间 都 不 到 10 富 秒 。 所 以 我 们 认为 正常 情况 下 数据 库 服务 器 


运行 良好 (这 一 点 比较 重要 ， 因 为 很 多 问题 一 开始 只 是 零星 地 出 现 ， 
慢 慢 地 累积 成 大 问题 。 比 如 RAID 阵 列 中 坏 了 一 块 硬盘 这 种 情况 ) 。 


a i da enter el 
有 的 细节 ， 对 几 个 不 同 的 可 能 性 深入 进去 追查 原因 。 在 实际 工作 中 ， 其 实 不 会 对 每 个 问题 都 


采用 这 样 缓慢 而 见长 的 方式 ， 也 不 推荐 大 家 这 样 做 。 这 里 只 是 为 了 更 好 地 演示 案例 而 已 。 


我 们 安装 好 诊断 工具 ， 在 Threads_connected 上 设置 触发 条 件 ， 正 
单 情况 下 Threads_connected 的 值 一 般 都 少 于 15， 但 在 友 生 问题 时 该 值 
可 能 应 升 到 几 百 。 下 面 我 们 会 先 给 出 一 个 样本 数据 的 收集 结果 ， 后 续 
再 来 评论 。 首 先 试 试看 ， 你 能 否 从 大 量 的 输出 中 找 出 问题 的 重点 在 哪 
里: 


。 查询 活动 从 1000 到 10000 的 QPS， 其 中 有 很 多 是 “垃圾 ”命令 ， 比 如 
ping 一 下 服务 器 确认 其 是 否 存活 。 其 余 的 大 部 分 是 SELECT 命令 ， 
AABN 300~ 200072, RAID AUPDATERS 〈 大 约 每 秒 五 
次 ) 。 

。 在 SHOW PROCESSLIST 中 主要 有 两 种 类 型 的 查询 ， 只 是 在 
WHERE 条 件 中 的 值 不 一 样 。 下 面 是 查询 状态 的 汇总 数据 : 


$ grep State: processlist.txt | sort | uniq -c | sort -rn 
161 State: Copying to tmp table 
156 State: Sorting result 
136 State: statistics 
50 State: Sending data 
24 State: NULL 


13 State: 


State: freeing items 
State: cleaning up 


State: storing result in query cache 


BBN ~ 


State: end 


大 部 分 查询 都 是 索引 扫描 或 者 范围 扫描 ， 很 少 有 全 表 扫 描 或 者 表 
关联 的 情况 。 

每 秒 大 约 有 20~100 次 排序 ， 需 要 排序 的 行 大 约 有 1000 到 12000 
行 。 

每 秒 大 约 创 建 12~90 个 临时 表 ， 其 中 有 3~5 个 是 磁盘 临时 表 。 
没有 表 锁 或 者 查询 缓存 的 问题 。 

在 SHOW INNODB STATUS 中 可 以 观察 到 主要 的 线程 状态 是 
“flushing buffer pool pages”， 但 只 有 很 少 的 脏 页 需要 刷新 
( Innodb_buffer_pool_pages_dirty ) ， 
Innodb_buffer pool _pages_flushed 也 没有 太 大 的 变化 ， 日 志 顺 序号 

(log sequence number) 和 最 后 检查 点 (last checkpoint) 之 间 的 差 

距 也 很 少 。InnoDB 缓 存 池 也 还 远 没 有 用 满 ; 缓存 闻 比 数据 集 还 要 
大 很 多 。 大 多 数 线程 在 等 待 InnoDB 队列: “12 queries inside 
InnoDB, 495 queries in queue”(12 个 查询 在 InnoDB 内 部 执行 ， 
495 个 查询 在 队列 中 ) 。 
每 秒 捕获 一 次 iostat 输 出 ， 持 续 30 秒 。 从 输出 可 以 发 现 没 有 磁盘 
读 ， 而 写 操 作 则 接近 了 “和 天花板”， 所 以 IO 平均 等 待 时 间 和 队列 长 
度 都 非常 高 。 下 面 是 部 分 输出 结果 ， 为 便于 打印 输出 ， 这 里 截取 
了 部 分 字段 : 


r/s w/s rsec/s wsec/s avgqu-Sz await svctm %util 


1.00 500.00 8.00 86216.00 5.05 11.95 0.59 29.40 
0.00 451.00 0.00 206248.00 123.25 238.00 1.90 85.90 
0.00 565.00 0.00 269792.00 143.80 245.43 1.77 100.00 
0.00 649.00 0.00 309248.00 143.01 231.30 1.54 100.10 
0.00 589.00 0.00 281784.00 142.58 232.15 1.70 100.00 
0.00 384.00 0.00 162008 .00 71.80 238.39 1.73 66.60 
0.00 14.00 0.00 400.00 0.01 0.93 0.36 0.50 
0.00 13.00 0.00 248.00 0.01 0.92 0.23 0.30 
0.00 13.00 0.00 408.00 0.01 0.92 0.23 0.30 


。yvmstat 的 输出 也 验证 了 iostat 的 结果 ， 并 且 CPU 的 大 部 分 时 间 是 空 
闲 的 ， 只 是 偶尔 在 写 尖 峰 时 有 一 些 1/O 等 待 时 间 (最 高 约 占 9% 的 
CPU) «© 


是 不 是 感觉 脑袋 里 塞 满 了 东西 ? SINRA—-TARNA TH BR 
有 任何 先入 为 主 (或 者 故意 忽略 了 ) 的 观念 时 ， fe 
况 ， 最 终 只 能 检查 所 有 可 能 的 情况 。 很 多 被 检查 是 完 
全 正常 的 ， de 尽管 
此 时 我 们 会 有 很 多 关于 问题 原因 的 猜测 ， 但 还 是 需要 继续 检查 下 面 给 
出 的 oprofile 报 表 ， 并 且 在 给 出 更 多 数据 的 时 候 添 加 一 些 评论 和 解释 : 


口 


samples % image name app name symbol name 
473653 63.5323 no-vmlinux no-vmlinux /no-vmlinux 
95164 12.7646 mysqld mysqld /usr 
/libexec/mysqld 


53107 7.1234 libc-2.10.1.so libc-2.10.1.so memcpy 


13698 1.8373 ha_innodb.so ha_innodb.so 


build_template( ) 
13059 1.7516 ha_innodb.so ha_innodb.so 
btr_search_guess_on_hash 
11724 1.5726 ha_innodb.so ha_innodb.so 
row_sel_store_mysql_rec 
8872 1.1900 ha_innodb.so ha_innodb.so 
rec_init_offsets_comp_ordinary 
7577 1.0163 ha_innodb.so ha_innodb.so 
row_search_for_mysql 
6030 0.8088 ha_innodb.so ha_innodb.so 
rec_get_offsets_func 
5268 0.7066 ha_innodb.so ha_innodb.so 


cmp_dtuple_rec_with_match 


这 里 大 多 数 符号 (symbol) 代表 的 意义 并 不 是 那么 明显 ， 而 大 部 
分 的 时 间 都 消耗 在 内 核 符号 (no-vmlinux) ' 心 ) 和 一 个 通用 的 mysqld 符 
号 中 ， 这 两 个 符号 无 法 告诉 我 们 更 多 的 细节 (8。 不 要 被 多 个 
ha_innodb.so 符 号 分 散 了 注意 力 ， 看 一 下 它们 占用 的 百分比 就 知道 了 ， 
不 管 它们 在 做 什么 ， 其 占用 的 时 间 都 很 少 ， 所 以 应 该 不 会 是 问题 所 
在 。 这 个 例子 说 明 ， 仅 仅 从 剖析 报表 出 发 是 无 法 得 到 解决 问题 的 结果 
的 。 我 们 追踪 的 数据 是 错误 的 。 如 果 遇 到 上 述 例子 这 样 的 情况 ， 需 
继续 检查 其 他 的 数据 ， 寻 找 问 题 根源 更 明显 的 证 据 。 


到 这 里 ， 如 果 希 望 从 gdb 的 堆栈 跟踪 进行 等 待 分 析 ， 请 参考 3.4.2 节 
的 最 后 部 分 内 容 。 那 个 案例 就 是 我 们 当前 正在 诊断 的 这 个 问题 。 回 想 
一 下 ， 当 时 的 堆栈 跟踪 分 析 的 结果 是 正在 等 待 进入 到 InnoDB 内 核 ， 所 


以 SHOW INNODB STATUS 的 输出 结果 中 有 “12 queries inside 


InnoDB, 495 queries in queue”. 


从 上 面 的 分 析 发 现 问题 的 关键 点 了 吗 ? 没有 。 我 们 看 到 了 许多 不 
同 问题 可 能 的 症状 ， 根 据 经 验 和 直觉 可 以 推测 至 少 有 两 个 可 能 的 原 
因 。 但 也 有 一 些 没有 意义 的 地 方 。 如 果 再 次 检查 一 下 iostat 的 输出 ， 可 
以 发 现 wsec/s 列 显示 了 至 少 在 6 秒 内 ， 服 务 器 每 秒 写 入 了 几 百 MB 的 数 
据 到 磁盘 。 每 个 磁盘 扇 区 是 512B， 所 以 这 里 采样 的 结果 显示 每 秒 最 多 
写 入 了 150MB 数 据 。 然 而 整个 数据 库 也 只 有 900MB 大 小 ， 系 统 的 压力 
又 主要 是 SELECT 查询。 怎么 会 出 现 这 样 的 情况 呢 ? 


对 一 个 系统 进行 检查 的 时 候 ， 应 该 先 问 一 下 自己 ， 是 否 也 碰 到 过 
上 面 这 种 明显 不 合理 的 问题 ， 如 果 有 就 需要 深入 调查 。 应 该 尽量 跟 进 
每 一 个 可 能 的 问题 直到 发 现 结果 ， 而 不 要 被 离 题 太 多 的 各 种 情况 分 散 
了 注意 力 ， 以 致 最 后 都 扎 记 了 最 初 要 调查 的 问题 。 可 以 把 问题 写 在 小 
纸 条 上 ， 检 查 一 个 划 掉 一 个 ， 最 后 再 确认 一 遍 所 有 的 问题 都 已 经 完 


调查 (9)。 


在 这 一 点 上 ， 我 们 可 以 直接 得 到 一 个 结论 ， 但 却 可 能 是 错误 的 。 
可 以 看 到 主线 程 的 状态 是 InnoDB 正 在 刷新 脏 页 。 在 状态 输出 中 出 现 这 
样 的 情况 ， 一 般 都 意味 着 刷新 已 经 延 坟 了。 我 们 知道 这 个 版 本 的 
InnoDB 存 在 “疯狂 刷新 ”的 问题 《或 者 也 被 称 为 检查 点 停顿 ) 。 发 生 这 
样 的 情况 是 因为 nnoDB 没 有 按时 间 均 匀 分 布 刷新 请 求 ， 而 是 隔 一 段 时 
间 突 然 请 求 一 次 强制 检查 点 导致 大 量 刷新 操作 。 这 种 机 制 可 能 会 导 至 
InnoDB 内 部 发 生 严重 的 阻塞 ， 导 致 所 有 的 操作 需要 排队 等 待 进入 内 
核 ， 从 而 引发 mmnoDB 上 一 层 的 服务 器 产生 堆积 。 在 第 2 章 中 演示 的 例 
子 焉 是 一 个 因为 “疯狂 刷新 ”而 导致 性 能 周期 性 下 跌 的 问题 。 很 多 类 似 
的 问题 都 是 由 于 强制 检查 点 导致 的 ， 但 在 这 个 案例 中 却 不 是 这 个 问 


题 。 有 很 多 方法 可 以 证 明 ， 最 简单 的 方法 是 查看 SHOW STATUS 的 计 
数 器 ， 追 踪 一 下 Innodb_buffer_pool_pages_flushed 的 变化 ， 之 前 已 经 提 
到 了 ， 这 个 值 并 没有 怎么 增加 。 另 外 ， 注 意 到 ImnoDB 缓 冲 池 中 也 没有 
大 量 的 脏 页 需要 刷新 ， 肯 定 不 到 几 百 MB。 这 并 不 值得 惊讶 ， 因 为 这 
个 服务 器 的 工作 压力 几乎 都 是 SELECT 查询 。 所 以 可 以 得 到 一 个 初步 
的 结论 ， 我 们 要 关注 的 不 是 InnoDB 刷 新 的 问题 ， 而 应 该 是 刷新 延迟 的 
问题 ， 但 这 只 是 一 个 现象 ， 而 不 是 原因 。 根 本 的 原因 是 磁盘 的 MO 已 经 
饱和 ，InnoDB 无 法 完成 其 VO 操作 。 至 此 我 们 消除 了 一 个 可 能 的 原 
因 ， 可 以 从 基于 直觉 的 原因 列表 中 将 其 划 掉 了 。 


从 结果 中 将 原因 区 别 出 来 有 时 候 会 很 困难 。 当 一 个 问题 看 起 来 很 
眼熟 的 时 候 ， 也 可 以 跳 过 调查 阶段 直接 诊断 。 当 然 最 好 不 要 走 这 样 的 
捷径 ， 但 有 时 候 依靠 直觉 也 非常 重要 。 如 果 有 什么 地 方 看 起 来 很 眼 
熟 ， 明 智 的 做 法 还 是 需要 人 花 一 点 时 间 去 测量 一 下 其 充分 必要 条 件 ， 以 
证 明 其 是 否 就 是 问题 所 在 。 这 样 可 以 节省 大 量 时 间 ， 避 免 查 看 大 量 其 
他 的 系统 和 性 能 数据 。 不 过 也 不 要 过 于 相信 和 直觉 而 直接 下 结论 ， 不 要 
说 “我 之 前 见 过 这 样 的 问题 ， 肯 定 就 是 同样 的 间 题 "。 而 是 应 该 去 收集 
相关 的 证 据 ， 尤 其 是 能 证 明 直 觉 的 证 据 。 


下 一 步 是 尝试 找 出 是 什么 导致 了 服务 器 的 WO 利用 率 异 常 的 高 。 首 
先 应 该 注意 到 前 面 已 经 提 到 过 的 “服务 器 有 连续 几 秒 内 每 秒 写 入 了 几 百 
MB 数据 到 磁盘 ， 而 数据 库 一 共 只 有 900MB 大 小 ， 怎 么 会 发 生 这 样 的 
情况 ? ”， 注 意 到 这 里 已 经 隐 式 地 假设 是 数据 库 导 致 了 磁盘 写 入 。 那 么 
有 什么 证 据 表 明 是 数据 库 导致 的 呢 ? 当 你 有 未 经 证 实 的 想法 ， 或 者 觉 
得 不 可 思议 时 ， 如 果 可 能 的 话 应 该 去 进行 测量 ， 然 后 排除 掉 一 些 怀 
疑 。 


我 们 看 到 了 两 种 可 能 性 : 要 么 是 数据 库 导致 了 W/O (如 果 能 找到 源 
头 的 话 ， 那 么 可 能 就 找到 了 问题 的 原因 ) ; 要 么 不 是 数据 库 导 致 了 所 
有 的 MO 而 是 其 他 什么 导致 的 ， 而 系统 因为 缺少 IO 资源 影响 了 数据 库 
性 能 。 我 们 也 很 小 心地 尽力 避免 引入 另外 一 个 隐 式 的 假设 : 磁盘 很 忙 
并 不 一 定 意味 着 MySQL 会 有 问题 。 要 记 住 ， 这 个 服务 器 主要 的 压力 是 
内 存 读 取 ， 所 以 也 很 可 能 出 现 磁盘 长 时 间 无 法 响应 但 没有 造成 严重 问 
题 的 现象 。 


如 果 你 一 直 跟 随 我 们 的 推理 人 逻辑， 就 可 以 发 现 还 需要 回头 检查 一 
下 另外 一 个 假设 。 我 们 已 经 知道 磁盘 设备 很 性， 因为 其 等 待 时 间 很 
高 。 对 于 固态 硬盘 来 说 ， 其 1/O 平 均等 待 时 间 一 般 不 会 超过 1/4 秒 。 实 
际 上 ， 从 iostat 的 输出 结果 也 可 以 发 现 磁盘 本 身 的 响应 还 是 很 快 的 ， 但 
请 求 在 块 设备 队列 中 等 待 很 长 的 时 间 才 能 进入 到 磁盘 设备 。 但 要 记 
住 ， 这 只 是 iostat 的 输出 结果 ， 也 可 能 是 错误 的 信息 。 


究竟 是 什么 导致 了 性 能 低下 ? 


当 一 个 资源 变 得 效率 低下 时 ， 应 该 了 解 一 下 为 什么 会 这 样 。 有 
如 下 可 能 的 原因 : 


— 


. 资源 被 过 度 使 用 ， 余 量 已 经 不 足以 正常 工作 。 
. 资源 没有 被 正确 配置 。 
资源 已 经 损坏 或 者 失灵 。 


w N 


回 到 上 面 的 例子 中 ，iostat 的 输出 显示 可 能 是 磁盘 的 工作 负载 太 
大 ， 也 可 能 是 配置 不 正确 (在 磁盘 响应 很 快 的 情况 下 ， 为 什么 WO 请 
求 需要 排队 这 么 长 时 间 才 能 进入 到 磁盘 ? ) 。 然 而 ， 比 较 系统 的 需 


求 和 现 有 容量 对 于 确定 问题 在 哪里 是 很 重要 的 一 部 分 。 大 量 的 基准 
测试 证 明 这 个 客户 使 用 的 这 种 SSD 是 无 法 支撑 几 百 MB/s 的 写 操作 
的 。 所 以 ， 尽 管 iostat 的 结果 表明 磁盘 的 响应 是 正常 的 ， 也 不 一 定 是 
完全 正确 的 。 在 这 个 案例 中 ， 我 们 没有 办 法 证 明 磁 盘 的 响应 比 iostat 
的 结果 中 所 说 的 要 慢 ， 但 这 种 情况 还 是 有 可 能 的 。 所 以 这 不 能 改变 
我 们 的 看 法 : 可 能 是 磁盘 被 滥用 4， 或 者 是 错误 的 配置 ， 或 者 两 者 
兼 而 有 之 ， 是 性 能 低下 的 罪魁 祸首 。 


在 检查 过 所 有 诊断 数据 之 后 ， 接 下 来 的 任务 就 很 明显 了 : 测量 出 
什么 导致 了 IO 消耗 。 不 乎 的 是 ， 客 户 当 前 使 用 的 GNU/Linux 版 本 对 此 
的 支持 不 力 。 通 过 一 些 工 作 我 们 可 以 做 一 些 相 对 准确 的 猜测 ， 但 首先 
还 是 需要 探索 一 下 其 他 的 可 能 性 。 我 们 可 以 测量 有 多 少 IO 来 自 
MySQL ， 但 客户 使 用 的 MySQL 版 本 较 低 以 致 缺乏 一 些 诊断 功能 ， 所 
以 也 无 法 提供 确切 有 利 的 支持 。 


作为 替代 ， 基 于 我 们 已 经 知道 MySQL 如 何 使 用 磁盘 ， 我 们 来 观察 
MySQL 的 WO 情况 。 通 常 来 说 ，MySQL 只 会 写 数 据 、 日 志 、 排 序 文件 
和 临时 表 到 磁盘 。 从 前 面 的 状态 计数 器 和 其 他 信息 来 看 ， 首 先 可 以 排 
除数 据 和 日 志 的 写 入 问题 。 那 么 ， 只 能 假设 MySQL 突 然 写 入 大 量 数据 
到 临时 表 或 者 排序 文件 ， 如 何 来 观察 这 种 情况 呢 ? 有 两 个 简单 的 方 
法 : 一 是 观察 磁盘 的 可 用 空间 ， 二 是 通过 lsof 命 令 观 察 服务 器 打开 的 文 
件 句柄 。 这 两 个 方法 我 们 都 采用 了 ， 结 果 也 足以 满足 我 们 的 需求 。 下 
面 是 问题 期 间 每 秒 运行 df-h 的 结果 : 


Filesystem Size Used Avail Use% Mounted on 


/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 
/dev/sda3 


58G 
58G 
58G 
58G 
58G 
58G 
58G 
58G 
58G 


20G 
20G 
19G 
19G 
19G 
19G 
18G 
18G 
18G 


36G 
36G 
36G 
36G 
36G 
36G 
37G 
37G 
37G 


36% 
36% 
35% 
35% 
35% 
35% 
33% 
33% 


33% 


Sy TUS ER OO OS OR SS 


下 面 则 是 1sof 的 数据 ， 因 为 某 些 原因 我 们 每 五 秒 才 收集 一 次 。 我 们 


简单 地 将 mysqld 在 /tmp 中 打开 的 文件 大 小 做 了 加 总 ， 并 且 把 总 
采样 时 的 时 间 戳 一 起 输出 到 结果 文件 中 : 


$ awk ' 


/mysqld.*tmp/ { 


total += $7; 


} 


/ASun Mar 28/ && total { 
printf "%s %7.2f MB\n", $4, 


total = 0; 


}' Lsof.txt 


18:34:38 1655.21 MB 


18:34:43 


18:34:48 


1.88 MB 


1.88 MB 


total/1024/1024; 


小 和 


18:34:53 1.88 MB 


18:34:58 1.88 MB 


从 这 个 数据 可 以 看 出 ， 在 问题 之 初 MySQL 大 约 写 了 1.5GB 的 数据 
到 临时 表 ， 这 和 之 前 在 SHOW PROCESSLIST 中 有 大 量 的 “Copying to 
tmp table” 相 吻合 。 这 个 证 据 表 明 可 能 是 某 些 效率 低下 的 查询 风暴 耗 尽 
了 磁盘 资产。 根据 我 们 的 工作 直觉 ， 出 现 这 种 情况 比较 普遍 的 一 个 原 
因 是 缓存 失效 。 当 memcached 中 所 有 缓存 的 条 目 同时 失效 ， 而 又 有 很 
多 应 用 需要 同时 访问 的 时 候 ， 就 会 出 现 这 种 情况 。 我 们 给 开发 人 员 出 
示 了 部 分 采样 到 的 查询 ， 并 讨论 这 些 查询 的 作用 。 实 际 情 况 是 ， 缓 存 
同时 失效 就 是 罪魁 祸首 〈 这 验证 了 我 们 的 直觉 ) 。 一 方面 开发 人 员 在 
应 用 层面 解决 缓存 失效 的 问题 ; 另 一 方面 我 们 也 修改 了 查询 ， 避 免 使 
用 磁盘 临时 表 。 这 两 个 方法 的 任何 一 个 都 可 以 解决 问题 ， 当 然 最 好 是 
两 个 都 实施 。 


如 果 读 者 一 直上 顺 着 我 们 前 面 的 思路 读 下 来 ， 可 能 还 会 有 一 些 疑 
问 。 在 这 里 我 们 可 以 稍微 解释 一 下 (我 们 在 本 章 引 用 的 方法 在 审阅 的 
时 候 已 经 检查 过 一 遍 ) : 


为 什么 我 们 不 一 开始 就 优化 慢 查 询 ? 


因为 问题 不 在 于 慢 查 询 ， 而 是 “ 太 多 连接 ”的 错误 。 当 然 ， 
为 慢 碍 询 ， 太 多 查询 的 时 间 过 长 而 导致 连接 堆积 在 逻辑 上 也 是 成 
立 的 。 但 也 有 可 能 是 其 他 原因 导致 连接 过 多 。 如 果 疫 有 找到 问题 
的 真正 原因 ， 那 么 回头 查看 慢 查 询 或 其 他 可 能 的 原因 ， 看 是 否 能 
够 改善 是 很 自然 的 事情 (水 。 但 这 样 做 大 多 时 候 会 让 问题 变 得 更 
糟 。 如 果 你 把 一 辆 后 开 到 机 械 师 那里 抱怨 说 有 异 啊 ， 假 如 机 械 师 
没有 指出 异 响 的 原因 ， 也 不 去 检查 其 他 的 地 方 ， 而 是 直接 做 了 四 


轮 平衡 和 更 换 变速 箱 油 ， 然 后 把 账单 扔 给 你 ， 你 也 会 觉得 不 爽 的 
吧 ? 


但 是 查询 由 于 糟 糙 的 执行 计划 而 执行 缓慢 不 是 一 种 警告 吗 ? 


在 事故 中 确实 如 此 。 但 慢 查 询 到 底 是 原因 还 是 结果 ? 在 深入 
调查 前 是 无 法 知晓 的 。 记 住 ， 在 正常 的 时 候 这 个 查询 也 是 正常 运 
行 的 。 一 个 查询 需要 执行 flesort 和 创建 临时 表 并 不 一 定 意味 着 就 
是 有 问题 的 。 尽 管 消除 人 iesort 和 临时 表 通 常 来 说 是 “最 佳 实践 ”。 


通常 的 “最 佳 实践 "自然 有 它 的 道理 ， 但 不 一 定 是 解决 某 些 特 
殊 问题 的 “ 灵 丹 妙 约 ”。 比 如 说 问题 可 能 是 因为 很 简单 的 配置 销 
误 。 我 们 碰 到 过 很 多 这 样 的 案例 ， 问 题 本 来 是 由 于 错误 的 配置 导 
致 的 ， 却 去 优化 查询 ， 这 不 但 浪费 了 时 间 ， 也 使 得 真正 问题 被 解 
决 的 时 间 被 拖延 了 。 


如 果 缓 存 项 被 重新 生成 了 很 多 次 ， 是 不 是 会 导致 产生 很 多 同样 
的 查询 呢 ? 


这 个 问题 我 们 确实 还 没有 调查 到 。 如 果 是 多 线程 重新 生成 同 
样 的 缓存 项 ， 那 么 确实 有 可 能 导致 产生 很 多 同样 的 查询 (这 和 很 
多 同类 型 的 查询 不 同 ， 比 如 WHERE 子 句 中 的 参数 可 能 不 一 
样 ) 。 注 意 到 这 样 会 刺激 我 们 的 直觉 ， 并 更 快 地 带 我 们 找到 问题 
的 解决 方案 。 


每 秒 有 几 百 次 SELECT 查询 ， 但 只 有 五 次 UPDATE。 怎 么 能 确 
定 这 五 次 UPDATE 的 压力 不 会 导致 问题 呢 ? 


这 些 UPDATE 有 可 能 对 服务 器 造成 很 大 的 压力 。 我 们 没有 将 
真正 的 查询 语句 展示 出 来 ， 因 为 这 样 可 能 会 将 事情 搞 得 更 杂乱 。 
但 有 一 点 很 明确 ， 某 种 查询 的 绝对 数量 不 一 定 有 意义 。 


IO 风暴 最 初 的 证 据 看 起 来 不 是 很 充分 ? 


是 的 ， 确 实 是 这 样 。 有 很 多 种 解释 可 以 说 明 为 什么 一 个 这 么 
小 的 数据 库 可 以 产生 这 么 大 量 的 写 入 磁盘 ， 或 者 说 为 什么 磁盘 的 
可 用 空间 下 降 得 这 么 快 。 这 个 问题 中 使 用 的 MySQL 和 GNU/Linux 
版 本 都 很 难 对 一 些 东 西 进行 测量 (但 不 是 说 完全 不 可 能 ) 。 尽 管 
在 很 多 时 候 我 们 可 能 扮演 “魔鬼 代言 人 ”的 角色 ， 但 我 们 还 是 以 尽 
量 平衡 成 本 和 潜在 的 利益 为 第 一 优先 级 。 越 是 难以 准确 测量 的 时 
候 ， 成 本 /收益 比 越 攀升 ， 我 们 也 更 愿意 接受 不 确定 性 。 


之 前 说 过 “数据 库 过 去 从 来 没 出 过 问题 "是 一 种 偏见 吗 ? 


是 的 ， 这 就 是 偏见 。 如 果 抓 住 问 题 ， 很 好 ;如 果 没 有 ， 也 可 
以 是 证 明 我 们 都 有 偏见 的 很 好 例子 。 


至 此 我 们 要 结束 这 个 案例 的 学 习 了 。 需 要 指出 的 是 ， 如 果 使 用 了 
诸如 New Relic 这 样 的 剖析 工具 ， 即 使 没有 我 们 的 参与 ， 也 可 能 解决 这 


个 问题 。 


3.5 “其 他 剂 析 工具 


我 们 已 经 演示 了 很 多 剖析 MySQL、 操 作 系 统 及 查询 的 方法 。 我 们 
也 演示 了 那些 我 们 觉得 很 有 用 的 案例 。 当 然 ， 通 过 本 书 ， 我 们 还 会 展 


示 更 多 工具 和 技术 来 检查 和 测量 系统 。 但 是 等 一 下 ， 本 章 还 有 更 多 工 
具 没 介绍 呢 。 


3.5.1 ”使 用 USER STATISTICS 表 


Percona Server 和 MariaDB 都 引入 了 一 些 额 外 的 对 象 级 别 使 用 统计 
的 INFORMATION_SCHEMA 表 ， 这 些 最 初 是 由 Google 开 发 的 。 这 些 表 
对 于 查找 服务 器 各 部 分 的 实际 使 用 情况 非常 有 帮助 。 在 一 个 大 型 企业 
中 ，DBA 负 责 管 理 数据 库 ， 但 其 对 开发 缺少 话语 权 ， 那 么 通过 这 些 表 
就 可 以 对 数据 库 活动 进行 测量 和 审计 ， 并 且 强 制 执行 使 用 策略 。 对 于 
像 共 享 主机 环境 这 样 的 多 租户 环境 也 同样 有 用 。 另 外 ， 在 查找 性 能 问 
题 时 ， 这 些 表 也 可 以 帮助 找 出 数据 库 中 什么 地 方 化 费 了 最 多 的 时 间 ， 
或 者 什么 表 或 索引 使 用 得 最 频繁 ， 抑 或 最 不 频繁 。 下 面 就 是 这 些 表 : 


mysql> SHOW TABLES FROM INFORMATION SCHEMA LIKE '% STATISTICS'; 


+---------------------------------------------+ 
+---------------------------------------------+ 
| CLIENT STATISTICS | 
| INDEX STATISTICS | 
| TABLE_STATISTICS | 
| THREAD STATISTICS | 
| USER STATISTICS | 


+---------------------------------------------+ 


这 里 我 们 不 会 详细 地 演示 针对 这 些 表 的 所 有 有 用 的 查询 ， 但 有 几 
个 要 点 要 说 明 一 下 : 


可 以 查找 使 用 得 最 多 或 者 使 用 得 最 少 的 表 和 索引 ， 通 过 读 取 次 数 
或 者 更 新 次 数 ， 或 者 两 者 一 起 排序 。 
可 以 查找 出 从 未 使 用 的 索引 ， 可 以 考虑 删除 之 。 


。 可 以 看 看 复制 用 户 的 CONNECTED_TIME 和 BUSY _TIME ， 以 确 
认 复 制 是 否 会 很 难 跟 上 主 库 的 进度 。 


在 MySQL 5.6 中 ，Performance Schema 中 也 添加 了 很 多 类 似 上 面 这 
些 功能 的 表 。 


3.5.2 ”使 用 strace 


strace 工 具 可 以 调查 系统 调用 的 情况 。 有 好 几 种 可 以 使 用 的 方法 ， 
其 中 一 种 是 计算 系统 调用 的 时 间 并 打印 出 来 : 
$ strace -cfp $(pidof mysqld) 


Process 12648 attached with 17 threads - interrupt to quit 
‘CProcess 12648 detached 


% time seconds usecs/call Calls errors syscall 
7351 0.608908 13839 44 select 
24.38 0.201969 20197 10 futex 
0.76 0.006313 i 11233 3 read 
0.60 0.004999 625 8 unlink 
0.48 0.003969 22 180 write 
0.23 0.001870 11 178 pread64 
0.04 0.000304 0 5538 _Ilseek 


[some lines omitted for brevity] 


100.00 0.828375 17834 46 total 


这 种 用 法 和 oprofhile 有 点 像 。 但 是 oprofije 还 可 以 剖析 程序 的 内 部 符 
号 ， 而 不 仅仅 是 系统 调用 。 另 外 ，strace 拦 截 系统 调用 使 用 的 是 不 同 于 
oprofile 的 技术 ， 这 会 有 一 些 不 可 预期 性 ， 开 销 也 更 大 些 。strace 度 量 
时 使 用 的 是 实际 时 间 ， 而 oprofile 使 用 的 是 花费 的 CPU 周 期 。 举 个 例 
子 ， 当 IO 等 待 出 现 问题 的 时 候 ，strace 能 将 它们 显示 出 来 ， 因 为 它 从 
诸如 read 或 者 pread64 这 样 的 系统 调用 开始 计时 ， 直 到 调用 结束 。 但 
oprofile 不 会 这 样 ， 因 为 IO 系统 调用 并 不 会 真正 地 消耗 CPU 周期 ， 而 只 
是 等 待 O 完 成 而 已 。 


我 们 会 在 需要 的 时 候 使 用 oprofile， 因 为 strace 对 像 mysqld 这 样 有 大 
量 线程 的 场景 会 产生 一 些 副作用 。 当 strace 附 加 上 去 后 ，mysqld 的 运行 
会 变 得 很 慢 ， 因 此 不 适合 在 产品 环境 中 使 用 。 但 在 某 些 场景 中 strace 还 
是 相当 有 用 的 ，Percona Toolkit 中 有 一 个 叫做 pt-ioprofile 的 工具 就 是 使 
用 strace 来 生成 IO 活动 的 剖析 报告 的 。 这 个 工具 很 有 帮助 ， 可 以 证 明 
或 者 驳斥 某 些 难以 测量 的 情况 下 的 一 些 观点 ， 此 时 其 他 方法 很 难 达 到 
目的 (如果 运行 的 是 MySQL 5.6， 使 用 Performance Schema 也 可 以 达到 
目的 ) 。 


3.6 BE 


本 章 给 出 了 一 些 基本 的 思路 和 技术 ， 有 助 于 你 成 功 地 进行 性 能 优 
化 。 正 确 的 思维 方式 是 开启 系统 的 全 部 潜力 和 应 用 本 书 其 他 章节 提供 
的 知识 的 天 键 。 下 面 是 我 们 试图 演 示 的 一 些 基本 知识 氮 : 


。 我 们 认为 定义 性 能 最 有 效 的 方法 是 响应 时 间 。 

。 如 果 无 法 测量 融 无 法 有 效 地 优化 ， 所 以 性 能 优化 工作 需要 基于 高 
贡 量 、 全 方位 及 完整 的 响应 时 间 测 量 。 

测量 的 最 佳 开始 点 是 应 用 程序 ， 而 不 是 数据 库 。 即 使 问题 出 在 底 
层 的 数据 库 ， 借 助 展 好 的 测量 也 可 以 很 容易 地 发 现 问题 。 

大 多 数 系统 无 法 完整 地 测量 ， 测 量 有 时 候 也 会 有 错误 的 结果 。 但 
也 可 以 想 办 法 绕 过 一 些 限制 ， 并 得 到 好 的 结果 (但 是 要 能 意识 到 
所 使 用 的 方法 的 缺陷 和 不 确定 性 在 哪里 ) 。 

完整 的 测量 会 产生 大 量 需 要 分 析 的 数据 ， 所 以 需要 用 到 剖析 器 。 
这 是 最 佳 的 工具 ， 可 以 帮助 将 重要 的 问题 冒 泡 到 前 面 ， 这 样 就 可 
以 决定 从 哪里 开始 分 析 会 比较 好 。 


。 剖析 报告 是 一 种 汇总 信息 ， 掩 盖 和 丢弃 了 太 多 细节 。 而 且 它 不 会 
告诉 你 缺少 了 什么 ， 所 以 完全 依赖 剖析 报告 也 是 不 明智 的 。 

有 两 种 消耗 时 间 的 操作 : 工作 或 者 等 待 。 大 多 数 剖 析 器 只 能 测量 
因为 工作 而 消耗 的 时 间 ， 所 以 等 待 分 析 有 时 候 是 很 有 用 的 补充 ， 
尤其 是 当 CPU 利 用 率 很 低 但 工作 却 一 直 无 法 完成 的 时 候 。 

优化 和 提升 是 两 回 事 。 当 继续 提升 的 成 本 超过 收益 的 时 候 ， 应 当 
停止 优化 。 

注意 你 的 直觉 ， 但 应 该 只 根据 直觉 来 指导 解决 问题 的 思路 ， 而 不 
是 用 于 确定 系统 的 问题 。 决 策应 当 尽 量 基 于 数据 而 不 是 感觉 。 


总 体 来 说 ， 我 们 认为 解决 性 能 问题 的 方法 ， 首 先是 要 澄清 问题 ， 
然后 选择 合适 的 技术 来 解答 这 些 问题 。 如 果 你 想 尝 试 提升 服务 器 的 总 
体 性 能 ， 那 么 一 个 比较 好 的 起 点 是 将 所 有 查询 记录 到 日 志 中 ， 然 后 利 
用 pt-query-digest 工 具 生 成 系统 级 别 的 剖析 报告 。 如 果 是 要 追查 某 些 性 
能 低下 的 查询 ， 记 录 和 剖析 的 方法 也 会 有 帮助 。 可 以 把 精力 放 在 寻找 
那些 消耗 时 间 最 多 的 、 导 致 了 糟糕 的 用 户 体验 的 ， 或 者 那些 高 度 变化 
的 ， 抑 或 有 奇怪 的 响应 时 间 直 方 图 的 查询 。 当 找到 了 这 些 “ 坏 ”查询 
时 ， 要 钻 取 pt-query-digest 报 告 中 包含 的 该 查询 的 详细 信息 ， 或 者 使 用 
SHOW PROFILE 及 其 他 诸如 EXPLAIN 这 样 的 工具 。 


如 果 找 不 到 这 些 查 询 性 能 低下 的 原因 ， 那 么 也 可 能 是 遇 到 了 服务 
器 级 别 的 性 能 问题 。 这 时 ， 可 以 较 高 精度 测量 和 绘制 服务 器 状态 计数 
器 的 细节 信息 。 如 果 通过 这 样 的 分 析 重 现 了 问题 ， 则 应 该 通过 同样 的 
数据 制定 一 个 可 靠 的 触发 条 件 ， 来 收集 更 多 的 诊断 数据 。 多 花费 一 点 
时 间 来 确定 可 靠 的 触发 条 件 ， 尽 量 避 人 免 漏 检 或 者 误 报 。 如 果 已 经 可 以 
捕获 故障 活动 期 间 的 数据 ， 但 还 是 无 法 找到 其 根本 原因 ， 则 要 么 尝试 
捕获 更 多 的 数据 ， 要 么 尝试 寻求 帮助 。 


我 们 无 法 完整 地 测量 工作 系统 ， 但 说 到 底 它 们 都 是 某 种 状态 机 ， 
所 以 只 要 足够 细心 ， 人 逻辑 清晰 并 且 坚 持 下 去 ， 通 党 来 说 都 能 得 到 想 要 
的 结果 。 要 注意 的 是 不 要 把 原因 和 结果 搞 混 了 ， 而 且 在 确认 问题 之 前 
也 不 要 随便 针对 系统 做 变动 。 


理论 上 纯粹 的 自 顶 向 下 的 方法 分 析 和 详尽 的 测量 只 是 理想 的 情 
况 ， 而 我 们 常常 需要 处 理 的 是 真实 系统 。 真 实 系统 是 复杂 且 无 法 充分 
测量 的 ， 所 以 我 们 只 能 根据 情况 尽力 而 为 。 使 用 诸如 pt-query-digest 和 
MySQL 企 业 监 控 器 的 查询 分 析 器 这 样 的 工具 并 不 完美 ， 通 常 都 不 会 给 
出 问题 根源 的 直接 证 据 。 但 真 的 掌握 了 以 后 ， 已 经 足以 完成 大 部 分 的 
优化 诊断 工作 了 。 


(1) 本 书 不 会 严格 区 分 查询 和 语句 ，DDL 和 DML 等 。 不 管 给 服务 器 发 送 什么 命令 ， 关 心 的 
都 是 执行 命令 的 速度 。 本 书 将 使 用 “查询 ”一 词 泛 指 所 有 发 送 给 服务 器 的 命令 。 

D 本 书 尽量 避免 从 理论 上 来 前 述 性 能 优化 一 词 ， 如 果 有 兴趣 可 以 参考 阅读 另外 两 篇 文 
章 。 在 Percona 的 网 站 (htip:/www.percona.com) 上 ， 有 一 篇 名 为 Goal-Driven Performance 
Optimization 的 白皮书 ， 这 是 一 篇 紧凑 的 快速 参考 页 。 另 外 一 篇 是 Cary Millsap 的 Optimizing 
Oracle Performance (O'Reilly 出 版 ) 。Cary 的 优化 方法 ， 被 称 为 R 方 法 ， 是 Oracle 世 界 的 优化 
黄金 定律 。 

(3) 也 有 人 将 优化 定义 为 提升 吞吐 量 ， 这 也 没有 什么 问题 ， 但 本 书 采 用 的 不 是 这 个 定义 ， 
因为 我 们 认为 响应 时 间 更 重要 ， 尽 管 吞 吐 量 在 基准 测试 中 更 容易 测量 。 

(4) MySQL 5.5 的 Performance Schema 也 没有 提供 查询 级 别 的 细节 数据 ， 要 到 MySQL 5.6 才 
提供 。 

(5) 在 此 向 Donald Rumsfeld 道 歉 。 他 的 评论 尽管 听 起 来 可 笑 ， 但 实际 上 非常 有 见地 。 

(6) 啊 ! (这 只 是 个 玩笑 ， 我 们 并 不 坚持 。) 

(7) 我 们 将 在 后 面 展示 例子 ， 因 为 需要 有 一 些 先 验 知识 ， 这 个 问题 跟 底层 相关 ， 所 以 我 们 
先 跳 过 自 顶 向 下 的 方法 。 

(8) 不 像 PHP， 大 部 分 其 他 编程 语言 都 有 一 些 内 建 的 剖析 功能 。 例 如 Ruby 可 以 使 用 -r 选 
项 ，Perl 则 可 以 使 用 perl-d:DProf， 等 等 。 


(9) 这 里 已 经 是 尽 可 能 地 简化 描述 了 ， 实 际 上 Percona Server 的 查询 日 志 报告 会 包含 更 多 细 
节 人 信息， 可 以 帮助 理解 为 什么 某 条 查询 花费 了 144ms 去 获取 一 行 数据 ， 这 个 时 间 实 在 是 太 长 
了 。 


(10) 整个 视图 太 长 ， 无 法 在 书 中 全 部 打印 出 来 ， 但 Sakila 数 据 库 可 以 从 MySQL 网 站 上 下 载 


到 。 
(11) 原文 用 的 Queries， 实 际 上 这 里 有 点 问题 ， 虽 然 文 档 上 也 说 这 个 参数 是 会 话 级 的 ， 但 
在 MySQL 5.1/5.5 多 个 版 本 中 实际 查询 时 发 现 其 是 全 局 级 别 的 。 译 者 注 
(12) 如 果 你 有 本 书 的 第 二 版 ， 可 能 会 注意 到 我 们 正在 彻底 改变 这 一 点 。 
(13) 再 次 强调 ， 在 没有 足够 的 理由 确信 这 是 解决 办 法 之 前 ， 不 要 随便 去 做 升级 操作 。 
(14) 到 目前 为 止 我 们 还 没 发 现 红 衣 女 ， 如 果 发 现 了 ， 一 定 会 让 你 知道 的 。 


(15) 警告 : 使 用 GDB 是 有 侵入 性 的 。 它 会 暂时 造成 服务 器 停顿 ， 尤 其 是 有 很 多 线程 的 时 
候 ， 甚 至 有 可 能 造成 朋 溃 。 但 有 时 候 收 益 还 是 大 于 风险 的 。 如 果 服 务 器 本 身 问 题 已 经 严重 到 
无 法 提供 服务 了 ， 那 么 使 用 GBD 再 造成 一 些 暂 停 也 就 无 所 谓 了 。 


(16) 有 了 时候 为 了 “优化 ”而 不 安装 符号 信息 ， 实 际 上 这 样 做 不 会 有 多 少 优化 的 效果 ， 反 而 
会 造成 诊断 问题 更 困难 。 可 以 使 用 nm 工具 检查 是 否 安装 了 符号 信息 ， 如 果 没 有 ， 则 可 以 通过 
安装 MySQL 的 debuginfo 包 来 安装 。 


(17) 理论 上 ， 我 们 需要 内 核 符号 (kermel symbol) 才能 理解 内 核 中 发 生 了 什么 。 实 际 上 ， 
安装 内 核 符号 可 能 会 比较 麻烦 ， 并 且 从 vmstat 的 输出 可 以 看 到 系统 CPU 的 利用 率 很 低 ， 所 以 即 
使 安装 了 ， 很 可 能 也 会 发 现 内 核 大 多 数 是 处 于 “sleeping” (HAR) 状态 的 。 


(18) 这 看 起 来 是 一 个 编译 有 问题 的 MySQL 版 本 。 

(19) 或 者 换个 说 法 ， 不 要 把 所 有 的 鸡蛋 都 混在 一 个 篮子 里 。 

(20) 也 有 人 会 拨打 1-800 热 线 电话 。 

(21) 就 像 常 说 的 “ 当 你 手中 有 了 锤子 ， 所 有 的 东西 看 起 来 都 是 钉子 ”一 样 。 


第 4 章 ”Schema 与 数据 类 型 优化 


良好 的 逻辑 设计 和 物理 设计 是 高 性 能 的 基石 ， 应 该 根据 系统 将 要 
执行 的 查询 语句 来 设计 schema， 这 往往 需要 权衡 各 种 因素 。 例 如 ， 反 
范式 的 设计 可 以 加 快 某 些 类 型 的 查询 ， 但 同时 可 能 使 另 一 些 类 型 的 碍 
询 变 慢 。 比 如 添加 计数 表 和 汇总 表 是 一 种 很 好 的 优化 查询 的 方式 ， 但 
这 些 表 的 维护 成 本 可 能 会 很 高 MySQL 独 有 的 特性 和 实现 细节 对 性 能 
的 影响 也 很 大 。 


本 章 和 聚焦 在 索引 优化 的 下 一 章 ， 覆 盖 了 MySQL 特 有 的 schema 设 
计 方 面 的 主题 。 我 们 假设 读者 已 经 知道 如 何 设计 数据 库 ， 所 以 本 章 既 
不 会 介绍 如 何 入 门 数据 库 设 计 ， 也 不 会 讲解 数据 库 设 计 方面 的 深入 内 
容 。 这 一 章 关 注 的 是 MySQL 数 据 库 的 设计 ， 主 要 介绍 的 是 MySQL 数 
据 库 设计 与 其 他 关系 型 数据 库 管 理 系统 的 区 别 。 如 果 需 要 学 习 数据 库 
设计 方面 的 基础 知识 ， 建 议 阅读 Clare Churcher 的 Beginning Database 
Design (Apress 出 版 社 ) 一 书 。 


本 章 内 容 是 为 接 下 来 的 两 个 章节 做 铺垫 。 在 这 三 章 中 ， 我 们 将 讨 
论 逻 辑 设计 、 物 理 设计 和 查询 执行 ， 以 及 它们 之 间 的 相互 作用 。 这 上 既 
需要 关注 全 局 ， 也 需要 专注 细节 。 还 需要 理解 整个 系统 以 便 弄 清楚 各 
个 部 分 如 何 相 互 影 响 。 如 果 在 阅读 完 索 引 和 查询 优化 章节 后 再 回头 来 
看 这 一 章 ， 也 许 会 发 现 本 章 很 有 用 ， 很 多 讨论 的 议题 不 能 孤立 地 考 
To 


4.1 选择 优化 的 数据 类 型 


MySQL 支 持 的 数据 类 型 非常 多 ， 选 择 正确 的 数据 类 型 对 于 获得 高 
性 能 至 天 重要 。 不 管 存储 哪 种 类 型 的 效 据 ， 下 面 几 个 简单 的 原则 都 有 
助 于 做 出 更 好 的 选择 。 


更 小 的 通 汕 更 好 。 


一 般 情 况 下 ， 应 该 尽量 使 用 可 以 正确 存储 数据 的 最 小 数据 类 
型 由 。 更 小 的 数据 类 型 通常 更 快 ， 因 为 它们 占用 更 少 的 磁盘 、 内 
存 和 CPU 缓存 ， 并 且 处 理 时 需要 的 CPU 周期 也 更 少 。 


但 是 要 确保 没有 低估 需要 存储 的 值 的 学 围 ， 因 为 在 schema 中 
的 多 个 地 方 增加 数据 类 型 的 范围 是 一 个 非常 耗 时 和 痛苦 的 操作 。 
如 果 无 法 确定 哪个 数据 类 型 是 最 好 的 ， 束 选择 你 认为 不 会 超过 泥 
围 的 最 小 类 型 。 (如 果 系 统 不 是 很 忙 或 者 存储 的 数据 量 不 多 ,或 
者 是 在 可 以 轻易 修改 设计 的 早期 阶段 ， 那 之 后 修改 数据 类 型 也 比 
较 容易 ) 。 


简单 就 好 


简单 数据 类 型 的 操作 通 单 需要 更 少 的 CPU 周期 。 例 如 ， 整 型 
比 字符 操作 代价 更 低 ， 因 为 字符 集 和 校对 规则 (排序 规则 ) 使 字 
符 比 较 比 整 型 比较 更 复杂 。 这 里 有 两 个 例子 : 一 个 是 应 该 使 用 
MySQL 内 建 的 类 型 中 而 不 是 字符 串 来 存储 日 期 和 时 间 ， 另 外 一 个 
是 应 该 用 整 型 存储 IP 地 址 。 稍 后 我 们 将 专门 讨论 这 个 话题 。 


尽量 避免 NULL 


很 多 表 都 包含 可 为 NULL ( 空 值 ) 的 列 ， 即 使 应 用 程序 并 不 
需要 保存 NULL 也 是 如 此 ， 这 是 因为 可 为 NULL 是 列 的 默认 属性 


(3)。 通 常情 况 下 最 好 指定 列 为 NOT NULL， 除 非 真 的 需要 存储 
NULL 值 。 


如 果 查 询 中 包含 可 为 NULL 的 列 ， 对 MySQL 来 说 更 难 优 化 ， 
因为 可 为 NULL 的 列 使 得 索引 、 索 引 统计 和 值 比较 都 更 复杂 。 可 
为 NULL 的 列 会 使 用 更 多 的 存储 空间 ， 在 MySQL 里 也 需要 特殊 处 
理 。 当 可 为 NULL 的 列 被 索引 时 ， 每 个 索引 记录 需要 一 个 额外 的 
字 节 ， 在 MyISAM 里 甚至 还 可 能 导致 固定 大 小 的 索引 (例如 只 
一 个 整数 列 的 索引 ) 变 成 可 变 大 小 的 索引 。 


通常 把 可 为 NULL 的 列 改 为 NOT NULL 带 来 的 性 能 提升 比较 
小 ， 所 以 ( 调 优 时 没有 必要 首先 在 现 有 schema 中 查找 并 修改 掉 
这 种 情况 ， 除 非 确 定 这 会 导致 问题 。 但 是 ， 如 果 计 划 在 列 上 建 索 
引 ， 就 应 该 尽量 避免 设计 成 可 为 NULL 的 列 。 


当然 也 有 例外 ， 例 如 值得 一 提 的 是 ，InnoDB 使 用 单独 的 位 
(bit) 存储 NULL 值 ， 所 以 对 于 稀 跪 数据 久 有 很 好 的 空间 效率 。 
但 这 一 点 不 适用 于 MyISAM。 


在 为 列 选择 数据 类 型 时 ， 第 一 步 需要 确定 合适 的 大 类 型 : 数字 、 
字符 串 、 时 间 等 。 这 通常 是 很 简单 的 ， 但 是 我 们 会 提 到 一 些 特 殊 的 不 
是 那么 直观 的 案例 。 


下 一 步 是 选择 具体 类 型 。 很 多 MySQL 的 数据 类 型 可 以 存储 相同 类 
型 的 数据 ， 只 是 存储 的 长 度 和 范围 不 一 样 、 人 允许 的 精度 不 同 ， 或 者 需 
要 的 物理 空间 (磁盘 和 内 存 空间 ) 不 同 。 相 同 大 类 型 的 不 同 子 类 型 数 
据 有 时 也 有 一 些 特殊 的 行为 和 属性 。 


例如 ，DATETIME 和 TIMESAMP 列 都 可 以 存储 相同 类 型 的 数据 : 
时 间 和 日 期 ， 精 确 到 秒 。 


然而 TIMESTAMP 只 使 用 DATETIME 一 半 的 存储 空间 ， 并 且 会 根 
据 时 区 变化 ， 具 有 特殊 的 自动 更 新 能 力 。 另 一 方面 ，TIMESTAMP 人 允 
许 的 时 间 范 围 要 小 得 多 ， 有 了 时候 它 的 特殊 能 力 会 成 为 障碍 。 


本 章 只 讨论 基本 的 数据 类 型 。MySQL 为 了 兼容 性 支持 很 多 别名 ， 
例如 INTEGER、BOOL， 以 及 NUMERIC。 它 们 都 只 是 别名 。 这 些 别 
名 可 能 令 人 不 解 ， 但 不 会 影响 性 能 。 如 果 建 表 时 采用 数据 类 型 的 别 
名 ， 然 后 用 SHOW CREATE TABLE 检 查 ， 会 发 现 MySQL 报 告 的 是 基 
本 类 型 ， 而 不 是 别名 。 


4.1.1 ”整数 类 型 


有 两 种 类 型 的 数字 : 整数 (whole number) 和 实数 (real 
number) 。 如 果 存 储 整 数 ， 可 以 使 用 这 几 种 整数 类 型 : TINYINT, 
SMALLINT，MEDIUMINT，INT，BIGINT。 分 别 使 用 8，16，24， 
32，64 位 存储 空间 。 它 们 可 以 存储 的 值 的 范围 从 -2 (N1) 到 2 

(ND) -1， 其 中 N 是 存储 空间 的 位 数 。 
整数 类 型 有 可 选 的 UNSIGNED 属 性 ， 表 示 不 允许 负 值 ， 这 大 致 可 


以 使 正 数 的 上 限 提高 一 倍 。 例 如 TINYINT UNSIGNED 可 以 存储 的 范围 
是 0~~255， 而 TINYINT 的 存储 范围 是 -128~127。 


有 符号 和 无 符号 类 型 使 用 相同 的 存储 空间 ， 并 具有 相同 的 性 能 ， 
因此 可 以 根据 实际 情况 选择 合适 的 类 型 。 


你 的 选择 决定 MySQL 是 怎么 在 内 存 和 磁盘 中 保存 数据 的 。 然 而 ， 
整数 计算 一 般 使 用 64 位 的 BIGINT 整 数 ， 即 使 在 32 位 环境 也 是 如 此 。 
ERM = HII, Ci) fe A DECIMAL 5% DOUBLE 进行 计 
算 ) 。 


MySQL 可 以 为 整数 类 型 指定 宽度 ， 例 如 INT (11) ， 对 大 多 数 应 
用 这 是 没有 意义 的 : 它 不 会 限制 值 的 合法 范围 ， 只 是 规定 了 MySQL 的 
一 些 交 互 工具 (例如 MySQL 命 令 行 客户 端 用 来 显示 字符 的 个 数 。 对 
于 存储 和 计算 来 说 ，INT (1) 和 INT (20) 是 相同 的 。 


人 一 些 第 三 方 存储 引擎 ， 比 如 Infobright， 有 时 也 有 自 定 义 的 存储 格式 和 压缩 方案 ， 
并 不 一 定 使 用 常见 的 MySQL 内 置 引擎 的 方式 。 


4.1.2 ”实数 类 型 


实数 是 带 有 小 数 部 分 的 数字 。 然 而 ， 它 们 不 只 是 为 了 存储 小 数 部 
分 ; 也 可 以 使 用 DECIMAL 存 储 比 BIGINT 还 大 的 整数 。MySQL 既 支持 
精确 类 型 ， 也 支持 不 精确 类 型 。 


FLOAT 和 DOUBLE 类 型 支持 使 用 标准 的 浮 点 运算 进行 近似 计算 。 
如 果 需 要 知道 浮 点 运算 是 怎么 计算 的 ， 则 需要 研究 所 使 用 的 平台 的 浮 
点 数 的 具体 实现 。 


DECIMAL 类 型 用 于 存储 精确 的 小 数 。 在 MySQL 5.0 和 更 高 版 本 ， 
DECIMAL 类 型 支持 精确 计算 。MySQL 4.1 以 及 更 早 版 本 则 使 用 浮 点 运 
算 来 实现 DECIAML 的 计算 ， 这样 做 会 因为 精度 损失 导致 一 些 奇怪 的 
结果 。 在 这 些 版 本 的 MySQL 中 ，DECIMAL 只 是 一 个 “存储 类 型 ”。 


因为 CPU 不 支持 对 DECIMAEL 的 直接 计算 ， 所 以 在 MySQL 5.0 以 及 
更 高 版 本 中 ，MySQL 服 务 器 自身 实现 了 DECIMAL 的 高 精度 计算 。 相 
对 而 言 ，CPU 直 接 支持 原生 浮 点 计算 ， 所 以 浮 点 运算 明显 更 快 。 


浮 点 和 DECIMAL 类 型 都 可 以 指定 精度 。 对 于 DECIMAL 列 ， 可 以 
指定 小 数 点 前 后 所 允许 的 最 大 位 数 。 这 会 影响 列 的 空间 消耗 。MySQL 
5.0 和 更 高 版 本 将 数字 打包 保存 到 一 个 二 进 制 字符 串 中 (每 4 个 字 节 存 9 
个 数字 ) 。 例 如 ，DECIMAL (18,9) 小 数 点 两 边 将 各 存储 9 个 数字 ， 
一 共 使 用 9 个 字 节 : 小 数 点 前 的 数字 用 4 个 字 节 ， 小 数 点 后 的 数字 用 4 个 
字 节 ， 小 数 点 本 身 占 1 个 字 节 。 


MySQL 5.0 和 更 高 版 本 中 的 DECIMAL 类 型 允许 最 多 65 个 数字 。 而 
早期 的 MySQL 版 本 中 这 个 限制 是 254 个 数字 ， 并 且 保 存 为 未 压缩 的 字 
符 串 〈 每 个 数字 一 个 字 节 ) o Am, XE (FH) 版 本 实际 上 并 不 能 
在 计算 中 使 用 这 么 大 的 数字 ， 因 为 DECIMAL 只 是 一 种 存储 格式 ; 在 
计算 中 DECIMAL 会 转换 为 DOUBLE 类 型 。 


有 多 种 方法 可 以 指定 浮 点 列 所 需要 的 精度 ， 这 会 使 得 MySQL 悄 悄 
选择 不 同 的 数据 类 型 ， 或 者 在 存储 时 对 值 进行 取舍 。 这 些 精度 定义 是 
非 标 准 的 ， 所 以 我 们 建议 只 指定 数据 类 型 ， 不 指定 精度 。 


浮 点 类 型 在 存储 同样 范围 的 值 时 ， 通 常 比 DECIMAL 使 用 更 少 的 
空间 。FLOAT 使 用 4 个 字 节 存储 。DOUBLE 占 用 8 个 字 节 ， 相 比 FLOAT 
有 更 高 的 精度 和 更 大 的 范围 。 和 整数 类 型 一 样 ， 能 选择 的 只 是 存储 类 
型 ; MySQL 使 用 DOUBLE 作 为 内 部 浮 点 计算 的 类 型 。 


因为 需要 额外 的 空间 和 计算 开销 ， 所 以 应 该 尽量 只 在 对 小 数 进行 
精确 计算 时 才 使 用 DECIMAL 一 一 例如 存储 财务 数据 。 但 在 数据 量 比 


较 大 的 时 候 ， 可 以 考虑 使 用 BIGINT 代 替 DECIMAL ， 将 需要 存储 的 货 
币 单位 根据 小 数 的 位 数 乘 以 相应 的 倍数 即 可 。 假 设 要 存储 财务 数据 精 
确 到 万 分 之 一 分 ， 则 可 以 把 所 有 金额 乘 以 一 百 万 ， 然 后 将 结果 存储 在 
BIGINT 里 ， 这 样 可 以 同时 避免 浮 点 存储 计算 不 精确 和 DECIMAL 精 确 
计算 代价 高 的 问题 。 


4.1.3 ”字符 串 类 型 


MySQL 支 持 多 种 字符 串 类 型 ， 每 种 类 型 还 有 很 多 变种 。 这 些 数据 
类 型 在 4.1 和 5.0 版 本 发 生 了 很 大 的 变化 ， 使 得 情况 更 加 复杂 。 从 
MySQL 4.1 开 始 ， 每 个 字符 串 列 可 以 定义 自己 的 字符 集 和 排序 规则 ， 
或 者 说 校对 规则 (collation) (更 多 关于 这 个 主题 的 信息 请 参考 第 7 
章 ) 。 这 些 东 西 会 很 大 程度 上 影响 性 能 。 


VARCHAR 和 CHAR 类 型 


VARCHAR 和 CHAR 是 两 种 最 主要 的 字符 串 类 型 。 不 笠 的 是 ， 很 
难 精确 地 解释 这 些 值 是 怎么 存储 在 磁盘 和 内 存 中 的 ， 因 为 这 跟 存 储 引 
擎 的 具体 实现 有 关 。 下 面 的 描述 假设 使 用 的 存储 引擎 是 mnrnoDB 和 /或 者 
MyISAM。 如果 使 用 的 不 是 这 两 种 存储 引擎 ， 请 参考 所 使 用 的 存储 引 
擎 的 文档 。 


先 看 看 VARCHAR 和 CHAR 值 通常 在 磁盘 上 怎么 存储 。 请 注意 ， 
存储 引擎 存储 CHAR 或 者 VARCHAR 值 的 方式 在 内 存 中 和 在 磁盘 上 可 
能 不 一 样 ， 所 以 MySQL 服 务 器 从 存储 引擎 读 出 的 值 可 能 需要 转换 为 另 
一 种 存储 格式 。 下 面 是 关于 两 种 类 型 的 一 些 比较 。 


VARCHAR 


VARCHAR 类 型 用 于 存储 可 变 长 字符 串 ， 是 最 常见 的 字符 串 
数据 类 型 。 它 比 定 长 类 型 更 节省 空间 ， 因 为 它 仅 使 用 必要 的 空间 
(例如 ， 越 短 的 字符 串 使 用 越 少 的 空间 ) 。 有 一 种 情况 例外 ， 如 
果 MySQL 表 使 用 ROW_FORMAT=FIXED 创 建 的 话 ， 每 一 行 都 会 
使 用 定 长 存储 ， 这 会 很 浪费 空间 。 


VARCHAR 需 要 使 用 1 或 2 个 额外 字 节 记 录 字 符 串 的 长 度 : 如 
果 列 的 最 大 长 度 小 于 或 等 于 255 字 节 ， 则 只 使 用 1 个 字 节 表示 ， 否 
则 使 用 2 个 字 节 。 假 设 采用 latin1 字 符 集 ， 一 个 VARCHAR (10) 
的 列 需要 11 个 字 节 的 存储 空间 。VARCHAR (1000) 的 列 则 需要 
1002 个 字 节 ， 因 为 需要 2 个 字 节 存储 长 度 信息 。 


VARCHAR 节 省 了 存储 空间 ， 所 以 对 性 能 也 有 帮助 。 但 是 ， 
由 于 行 是 变 长 的 ， 在 UPDATE 时 可 能 使 行 变 得 比 原来 更 长 ， 这 就 
导致 需要 做 额外 的 工作 。 如 果 一 个 行 占用 的 空间 增长 ， 并 且 在 页 
内 没有 更 多 的 空间 可 以 存储 ， 在 这 种 情况 下 ， 不 同 的 存储 引擎 的 
处 理 方式 是 不 一 样 的 。 例 如 ，MYyISAM 会 将 行 拆 成 不 同 的 片段 存 
储 ，InnoDB 则 需要 分 裂 页 来 使 行 可 以 放 进 页 内 。 其 他 一 些 存储 引 
擎 也 许 从 不 在 原 数据 位 置 更 新 数据 。 


下 面 这 些 情况 下 使 用 VARCHAR 是 合适 的 : 字符 串 列 的 最 大 
长 度 比 平均 长 度 大 很 多 ; 列 的 更 新 很 少 ， 所 以 碎片 不 是 问题 ; 使 
用 了 像 UTF-8 这 样 复杂 的 字符 集 ， 每 个 字符 都 使 用 不 同 的 字 节 数 
进行 存储 。 


在 5.0 或 者 更 高 版 本 ，MySQL 在 存储 和 检索 时 会 保留 末尾 空 
格 。 但 在 4.1 或 更 老 的 版 本 ，MySQL 会 剔除 末尾 空格 。 


InnoDB 则 更 灵活 ， 它 可 以 把 过 长 的 VARCHAR 存 储 为 
BLOB， 我 们 稍 后 讨论 这 个 问题 。 


CHAR 


CHAR 类 型 是 定 长 的 : MySQL 总 是 根据 定义 的 字符 串 长 度 分 
配 足 够 的 空间 。 当 存储 CHAR 值 时 ，MySQL 会 删除 所 有 的 末尾 空 
格 (在 MySQL 4.1 和 更 老 版 本 中 VARCHAR 也 是 这 样 实现 的 一 一 
也 就 是 说 这 些 版 本 中 CHAR 和 VARCHAR 在 逻辑 上 是 一 样 的 ， 区 
别 只 是 在 存储 格式 上 ) 。CHAR 值 会 根据 需要 采用 空格 进行 填充 
以 方便 比较 。 


CHAR 适 合 存储 很 短 的 字符 串 ， 或 者 所 有 值 都 接近 同一 个 长 度 。 
例如 ，CHAR 非 常 适合 存储 密码 的 MD5 值 ， 因 为 这 是 一 个 定 长 的 值 。 
对 于 经 常 变 更 的 数据 ，CHAR 也 比 VARCHAR 更 好 ， 因 为 定 长 的 CHAR 
类 型 不 容易 产生 碎片 。 对 于 非常 短 的 列 ，CHAR 比 VARCHAR 在 存储 
空间 上 也 更 有 效率 。 例 如 用 CHAR (1) 来 存储 只 有 YR 和 NN 的 值 ， 如 果 
采用 单字 节 字 符 集中 只 需要 一 个 字 节 ,但 是 VARCHAR (1) 却 需要 两 
个 字 节 ， 因 为 还 有 一 个 记录 长 度 的 额外 字 节 。 


CHAR 类 型 的 这 些 行为 可 能 有 一 点 难以 理解 ， 下 面 通过 一 个 具体 
的 例子 来 说 明 。 首 先 ， 我 们 创建 一 张 只 有 一 个 CHAR (10) 字段 的 表 
并 且 往 里 面 插入 一 些 值 : 


mysql> CREATE TABLE char_test( char_col CHAR(10)); 


mysql> INSERT INTO char_test(char_col) VALUES 


-> ('string1i'), (' string2'), ('string3 ') 


当 检 索 这 些 值 的 时 候 ， 会 友 现 string3 末 尾 的 空格 被 截断 了 。 


mysql> SELECT CONCAT("'", char col, "'") FROM char_test; 


| CONCAT("'", char col, "'") | 
H 


| 'string1' | 
| © string2' | 
| 'string3' | 
+ 


(5): 


| 'string1' | 
| © string2' | 
| “strings ' | 
he 


效 据 如 何 存储 取决 于 存储 引擎 ， 并 非 所 有 的 存储 引擎 都 会 按照 相 
同 的 方式 处 理 定 长 和 变 长 的 字符 串 。Memory 引 擎 只 支持 定 长 的 行 ， 即 
使 有 变 长 字段 也 会 根据 最 大 长 度 分 配 最 大 空间 W。 不 过 ， 填 充 和 截取 
空格 的 行为 在 不 同 存储 引擎 都 是 一 样 的 ， 因 为 这 是 在 MySQL 服 务 器 层 
进行 处 理 的 。 


与 CHAR 和 VARCHAR 类 似 的 类 型 还 有 BINARY 和 VARBINARY , 
它们 存储 的 是 二 进 制 字 符 串 。 二 进 制 字符 串 跟 常 规 字符 串 非 常 相似 ， 
但 是 二 进 制 字符 串 存 储 的 是 字 节 码 而 不 是 字符 。 填 充 也 不 一 样 : 
MySQL 填 充 BINARY 采 用 的 是 \0 (SFP) 而 不 是 空格 ， 在 检索 时 也 
会 去 掉 填 充值 (3。 


当 需 要 存储 二 进 制 数 据 ， 并 且 希 望 MySQL 使 用 字 节 码 而 不 是 字符 
进行 比较 时 ， 这 些 类 型 是 非常 有 用 的 。 二 进 制 比较 的 优势 并 不 仅仅 体 
现在 大 小 写 敏 感 上 。MySQL 比 较 BINARY 字 符 串 时 ， 每 次 按 一 个 字 
节 ， 并 且 根 据 该 字 节 的 数值 进行 比较 。 因 此 ， 二 进 制 比较 比 字符 比较 
简单 很 多 ， 所 以 也 就 更 快 。 


慷慨 是 不 明智 的 


使 用 VARCHAR (5) 和 VARCHAR (200) 存储 'hello’ 的 空间 开 
销 是 一 样 的 。 那 么 使 用 更 短 的 列 有 什么 优势 吗 ? 


事实 证 明 有 很 大 的 优势 。 更 长 的 列 会 消耗 更 多 的 内 存 ， 因 为 


MySQL 通 常会 分 配 固定 大 小 的 内 存 块 来 保存 内 部 值 。 尤 其 是 使 用 内 
存 临时 表 进 行 排序 或 操作 时 会 特别 糟糕 。 在 利用 磁盘 临时 表 进 行 排 
序 时 也 同样 糟糕 。 


所 以 最 好 的 策略 是 只 分 配 真 正 需要 的 空间 。 


BLOB 和 TEXT 类 型 


BLOB 和 TEXT 都 是 为 存储 很 大 的 数据 而 设计 的 字符 串 数据 类 型 ， 
分 别 采 用 二 进 制 和 字符 方式 存储 。 


实际 上 ， 它 们 分 别 属于 两 组 不 同 的 数据 类 型 家 族 : 字符 类 型 是 
TINYTEXT, SMALLTEXT, TEXT, MEDIUMTEXT, LONGTEXT; 
对 应 的 二 进 制 类 型 是 TINYBLOB , SMALLBLOB , BLOB, 


MEDIUMBLOB ，LONGBLOB 。BLOB 是 SMALLBLOB 的 同义词 ， 
TEXT 是 SMALLTEXT 的 同义词 。 


与 其 他 类 型 不 同 ，MySQL 把 每 个 BLOB 和 TEXT 值 当 作 一 个 独立 的 
对 象 处理 。 存 储 引 擎 在 存储 时 通 单 会 做 特殊 处 理 。 当 BLOB 和 TEXT 值 
太 大 时 ，InnoDB 会 使 用 专门 的 “外 部 ”存储 区 域 来 进行 存储 ， 此 时 每 个 
值 在 行内 需要 1~4 个 字 节 存储 一 个 指针 ， 然 后 在 外 部 存储 区 域 存储 实 
际 的 值 。 


BLOB 和 TEXT 家 族 之 间 仅 有 的 不 同 是 BLOB 类 型 存储 的 是 二 进 制 
数据 ， 没 有 排序 规则 或 字符 集 ， 而 TEXT 类 型 有 字符 集 和 排序 规则 。 


MySQL 对 BLOB 和 TEXT 列 进行 排序 与 其 他 类 型 是 不 同 的 : CRW 
每 个 列 的 最 前 max_sort_length 字 节 而 不 是 整个 字符 串 做 排序 。 如 果 只 
需要 排序 前 面 一 小 部 分 字符 ， 则 可 以 减 小 max_sort_length 的 配置 ， 或 
者 使 用 ORDER BY SUSTRING (column, length) 。 


MySQL 不 能 将 BLOB 和 TEXT 列 全 部 长 度 的 字符 串 进行 索引 ， 也 不 
能 使 用 这 些 索 引 消除 排序 。 (关于 这 个 主题 下 一 章 会 有 更 多 的 信 
息 。) 


磁盘 临时 表 和 文件 排序 


因为 Memory 引 擎 不 支持 BLOB 和 TEXT 类 型 ， 所 以 ， 如 果 查 询 
使 用 了 BLOB 或 TEXT 列 并 且 需 要 使 用 隐 式 临时 表 ， 将 不 得 不 使 用 
MyISAM 磁 盘 临 时 表 ， 即 使 只 有 几 行 数据 也 是 如 此 (Percona Server 


的 Memory 引 擎 支持 BLOB 和 TEXT 类 型 ， 但 直到 本 书写 作 之 际 ， 同 
样 的 场景 下 还 是 需要 使 用 磁盘 临时 表 ) o 


这 会 导致 严重 的 性 能 开销 。 即 使 配置 MySQL 将 临时 表 存 储 在 内 
存 块 设 备 上 (RAM Disk) ， 依 然 需要 许多 昂贵 的 系统 调用 。 


最 好 的 解决 方案 是 尽量 避免 使 用 LOB 和 TEXT 类 型 。 如 果实 在 
无 法 避免 ， 有 一 个 技巧 是 在 所 有 用 到 BLOB 字 段 的 地 方 都 使 用 
SUBSTRING (column, length) 将 列 值 转换 为 字符 串 (在 ORDER 
BY 子 句 中 也 适用 ) ， 这 样 就 可 以 使 用 内 存 临 时 表 了 。 但 是 要 确保 截 
取 的 子 字 符 串 足够 短 ， 不 会 使 临时 表 的 大 小 超过 
max_heap_table_size 或 tmp_table_size， 超 过 以 后 MySQL 会 将 内 存 临 
时 表 转 换 为 MyISAM 人 磁盘 临时 表 。 


最 坏 情况 下 的 长 度 分 配对 于 排序 的 时 候 也 是 一 样 的 ， 所 以 这 一 
召 对 于 内 存 中 创建 大 临时 表 和 文件 排序 ， 以 及 在 磁盘 上 创建 大 临时 
表 和 文件 排序 这 两 种 情况 都 很 有 帮助 。 


例如 ， 假 设 有 一 个 1000 万 行 的 表 ， 占 用 几 个 GB 的 磁盘 空间 。 其 
中 有 一 个 utf8 字 符 集 的 VARCHAR (1000) 列 。 每 个 字符 最 多 使 用 3 
个 字 节 ， 最 坏 情况 下 需要 3000 字 节 的 空间 。 如 果 在 ORDER BY 中 用 
到 这 个 列 ， 并 且 查 询 扫 描 整 个 表 ， 为 了 排序 就 需要 超过 30GB 的 临时 
表 。 


如 果 EXPLAIN 执 行 计 划 的 Extra 列 包含 "Using temporary”， 则 说 
明 这 个 查询 使 用 了 隐 式 临时 表 。 


使 用 枚 举 (ENUM) 代替 字符 串 类 型 


有 时 候 可 以 使 用 枚 举 列 代替 音 用 的 字符 串 类 型 。 枚 举 列 可 以 把 一 
些 不 重复 的 字符 串 存 储 成 一 个 预定 义 的 集合 。MySQL 在 存储 枚 举 时 非 
常 紧 凑 ， 会 根据 列表 值 的 数量 压缩 到 一 个 或 者 两 个 字 节 中 。MySQL 在 
内 部 会 将 每 个 值 在 列表 中 的 位 置 保存 为 整数 ， 并 且 在 表 的 .frm 文 件 中 
保存 “数字 -字符 串 ” 映 射 天 系 的 “查找 表 ”。 下 面 有 一 个 例子 : 


mysql> CREATE TABLE enum_ test( 
-> e ENUM ('fish', ‘apple', 'dog') NOT NULL 
-> ); 
mysql> INSERT INTO enum_test(e) VALUES('fish'), ('dog'), 


(‘apple'); 
这 三 行 数据 实际 存储 为 整数 ， 而 不 是 字符 串 。 可 以 通过 在 数字 上 
下 文 环境 检索 看 到 这 个 双重 属性 : 


mysql> SELECT e + 0 FROM enum test; 
+-------+ 


常量 ， 这 种 双重 性 很 容易 导致 混 
乱 ， 例 如 ENUM ('1', '2''3') 。 建 议 尽量 避免 这 么 做 。 


另外 一 个 让 人 吃惊 的 地 方 是 ， 枚 举 字段 是 按照 内 部 存储 的 整数 而 
不 是 定义 的 字符 串 进 行 排 序 的 : 


mysql> SELECT e FROM enum_test ORDER BY e; 
+-------+ 


+-------+ 


+-------+ 


一 种 绕 过 这 种 限制 的 方式 是 按照 需要 的 顺序 来 定义 枚 举 列 。 另 外 
也 可 以 在 查询 中 使 用 FIELDO 国 数 显 式 地 指定 排序 顺序 ， 但 这 会 导致 
MySQL 无 法 利用 索引 消除 排序 。 


mysql> SELECT e FROM enum test ORDER BY FIELD(e, 'apple', 'dog', 'fish'); 
+-------+ 


+-------+ 


+-------+ 


如 果 在 定义 时 就 是 按照 字母 的 顺序 ， 就 没有 必要 这 么 做 了 。 


枚 举 最 不 好 的 地 方 是 ， 字 符 串 列表 是 固定 的 ， 添 加 或 删除 字符 串 
必须 使 用 ALTER TABLE。 因 此 ， 对 于 一 系列 未 来 可 能 会 改变 的 字符 
串 ， 使 用 枚 举 不 是 一 个 好 主意 ， 除 非 能 接受 只 在 列表 末尾 添加 元 素 ， 
这 样 在 MySQL 5.1 中 就 可 以 不 用 重建 整个 表 来 完成 修改 。 


由 于 MySQL 把 每 个 枚 举 值 保 存 为 整数 ， 并 且 必 须 进 行 查找 才能 转 
换 为 字符 串 ， 所 以 枚 举 列 有 一 些 开 销 。 通 常 枚 举 的 列表 都 比较 小 ， 所 
以 开销 还 可 以 控制 ， 但 也 不 能 保证 一 直 如 此 。 在 特定 情况 下 ， 把 
CHAR/VARCHAR 列 与 枚 举 列 进行 关联 可 能 会 比 直接 关联 
CHAR/VARCHAR 列 更 慢 。 


为 了 说 明 这 个 情况 ， 我 们 对 一 个 应 用 中 的 一 张 表 进 行 了 基准 测 
il, 看 看 在 MySQL 中 执行 上 面 说 的 关联 的 速度 如 何 。 该 表 有 一 个 很 大 


的 主键 : 


CREATE TABLE webservicecalls ( 
day date NOT NULL, 
account smallint NOT NULL, 
service varchar(10) NOT NULL, 
method varchar(50) NOT NULL, 
calls int NOT NULL, 
items int NOT NULL, 
time float NOT NULL, 
cost decimal(9,5) NOT NULL, 
updated datetime, 
PRIMARY KEY (day, account, service, method) 


) ENGINE=InnoDB; 


这 个 表 有 11 万 行 数 据 ， 只 有 10MB 大 小 ， 所 以 可 以 完全 载 入 内 存 。 
service 列 包含 了 5 个 不 同 的 值 ， 平 均 长 度 为 4 个 字符 ，method 列 包含 了 
71 个 值 ， 平均 长 度 为 20 个 字符 。 


我 们 复制 一 下 这 个 表 ， 但 是 把 service 和 method 字 段 换 成 枚 举 类 
型 ， 表 结构 如 下 : 


CREATE TABLE webservicecalls enum ( 
. omitted ... 
service ENUM(...values omitted...) NOT NULL, 


method ENUM(...values omitted...) NOT NULL, 


. omitted ... 


) ENGINE=InnoDB; 


然后 我 们 用 主键 列 关 联 这 两 个 表 ， 下 面 是 所 使 用 的 查询 语句 : 


mysql> SELECT SQL_NO_CACHE COUNT(*) 
-> FROM webservicecalls 
-> JOIN webservicecalls USING(day, account, service, 


method); 


我 们 用 VARVHAR 和 ENUM 分 别 测 试 了 这 个 语句 ， 结 果 如 表 4-1 所 
Jo 


表 4-1: 连接 VARCHAR 和 ENUM 列 的 速度 


测试 


Cm 


从 上 面 的 结果 可 以 看 到 ， 当 把 列 都 转换 成 ENUM 以 后 ， 关 联 变 得 
很 快 。 但 是 当 VARCHAR 列 和 ENUM 列 进行 关联 时 则 慢 很 多 。 在 本 例 
中 ， 如 果 不 是 必须 和 VARCHAR 列 进行 关联 ， 那 么 转换 这 些 列 为 


Fa zE 
Co N 


ENUM 就 是 个 好 主意 。 这 是 一 个 通用 的 设计 实践 ， 在 “查找 表 ” 时 采用 
整数 主键 而 避免 来 用 基于 字符 串 的 值 进行 天 联 。 


然而 ， 转 换 列 为 枚 举 型 还 有 另 一 个 好 处 。 根 据 SHOW TABLE 
STATUS 命令 输出 结果 中 Data_length 列 的 值 ， 把 这 两 列 转换 为 ENUM 可 
以 让 表 的 大 小 缩小 13。 在 某 些 情况 下 ， 即 使 可 能 出 现 ENUM 和 
VARCHAR 进 行 关 联 的 情况 ， 这 也 是 值得 的 多。 同样 ， 转 换 后 主键 也 
只 有 原来 的 一 半 大 小 了 。 因 为 这 是 InnoDB 表 ， 如 果 表 上 有 其 他 索引 ， 
减 小 主键 大 小 会 使 非 主键 索引 也 变 得 更 小 。 稍 后 再 解释 这 个 问题 。 


4.1.4 “日 期 和 时 间 类 型 


MySQL 可 以 使 用 许多 类 型 来 保存 日 期 和 时 间 值 ， 例 如 YEAR 和 
DATE。MySQL 能 存储 的 最 小 时 间 粒 度 为 秒 (MariaDB 支 持 微 秒 级 别 
的 时 间 类 型 ) 。 但 是 MySQL 也 可 以 使 用 微 秒 级 的 粒度 进行 临时 运算 ， 
我 们 会 展示 怎么 绕 开 这 种 存储 限制 。 


大 部 分 时 间 类 型 都 没有 替代 品 ， 因 此 没有 什么 是 最 佳 选择 的 问 
题 。 唯 一 的 问题 是 保存 日 期 和 时 间 的 时 候 需 要 做 什么 。MySQL 提 供 两 
种 相似 的 日 期 类 型 : DATETIME 和 TIMESTAMP。 对 于 很 多 应 用 程 
序 ， 它 们 都 能 工作 ， 但 是 在 某 些 场 景 ， 一 个 比 另 一 个 工作 得 好 。 让 我 
们 来 看 一 下 。 


DATETIME 


这 个 类 型 能 保存 大 范围 的 值 ， 从 1001 年 到 9999 年 ， 精 度 为 
秒 。 它 把 日 期 和 时 间 封 装 到 格式 为 YYYYMMDDHHMMSS 的 整数 


中 ， 与 时 区 无 关 。 使 用 8 个 字 节 的 存储 空间 。 


默认 情况 下 ，MySQL 以 一 种 可 排序 的 、 无 歧义 的 格式 显示 
DATETIME 值 ， 例 如 “2008-01-16 22:37:08”。 这 是 ANSI 标 准 定义 
的 日 期 和 时 间 表 示 方 法 。 


TIMESTAMP 


就 像 它 的 名 字 一 样 ，TIMETAMP 类 型 保存 了 从 1970 年 1 月 1 日 
午夜 (格林 尼 治 标准 时 间 ) 以 来 的 秒 数 ， 它 和 UNIX 时 间 戳 相同 。 
TIMESTAMP 只 使 用 4 个 字 节 的 存储 空间 ， 因 此 它 的 范围 比 
DATETIME 小 得 多 : 只 能 表示 从 1970 年 到 2038 年 。MySQL 提 供 了 
FROM_UNIXTIME( A 2X 8 Unix bY ja) eS HRA AHA, HET 
UNIX_TIMESTAMPO 函 数 把 日 期 转换 为 Unix 时 间 戳 。 


MySQL 4.1 以 及 更 新 的 版 本 按照 DATETIME 的 方式 格式 化 
TIMESTAMP 的 值 ， 但 是 MySQL 4.0 以 及 更 老 的 版 本 不 会 在 各 个 部 
分 之 间 显 示 任 何 标点 符号 。 这 仅仅 是 显示 格式 上 的 区 别 ， 
TIMESTAMP 的 存储 格式 在 各 个 版 本 都 是 一 样 的 。 


TIMESTAMP 显 示 的 值 也 依赖 于 时 区 。MySQL 服 务 器 、 操 作 
系统 ， 以 及 客户 端 连 接 都 有 时 区 设置 。 


因此 ， 存 储 值 为 0 的 TIMESTAMP 在 美国 东部 时 区 显示 为 
“1969-12-31 19:00:00”, 与 格林 尼 冶 时 间 差 5 个 小 时 。 有 必要 强调 
一 下 这 个 区 别 : 如 果 在 多 个 时 区 存储 或 访问 数据 ，TIMESTAMP 
和 DATIETIME 的 行为 将 很 不 一 样 。 前 者 提供 的 值 与 时 区 有 关系 ， 
后 者 则 保留 文本 表示 的 日 期 和 时 间 。 


TIMESTAMP 也 有 DATETIME 没 有 的 特殊 属性 。 默 认 情 况 
下 ， 如 果 插 入 时 没有 指定 第 一 个 TIMESTAMP 列 的 值 ，MySQL 则 
设置 这 个 列 的 值 为 当前 时 间 4t0)。 在 插入 一 行 记录 时 ，MySQL 默 认 
也 会 更 新 第 一 个 TIMESTAMP 列 的 值 〈 除 非 在 UPDATE 语 句 中 明确 
指定 了 值 ) 。 你 可 以 配置 任何 TIMESTAMP 列 的 插入 和 更 新 行 
为 。 最 后 ，TIMESTAMP 列 默认 为 NOT NULL ， 这 也 和 其 他 的 数 
据 类 型 不 一 样 。 


除了 特殊 行为 之 外 ， 通 常 也 应 该 尽量 使 用 TIMESTAMP， 因 为 它 
比 DATETIME 空 间 效 率 更 高 。 有 时 候 人 们 会 将 Unix 时 间 截 存储 为 整数 
值 ， 但 这 不 会 带 来 任何 收益 。 用 整数 保存 时 间 截 的 格式 通常 不 方便 处 
理 ， 所 以 我 们 不 推荐 这 样 做 。 


如 果 需 要 存储 比 秒 更 小 粒度 的 日 期 和 时 间 值 怎么 办 ? MySQL 目前 
没有 提供 合适 的 数据 类 型 ， 但 是 可 以 使 用 自己 的 存储 格式 : 可 以 使 用 
BIGINT 类 型 存储 微 秒 级 别 的 时 间 截 ， 或 者 使 用 DOUBLE 存 储 秒 之 后 的 
小 数 部 分 。 这 两 种 方式 都 可 以 ， 或 者 也 可 以 使 用 MariaDB 替代 
MySQLo 


4.1.5 ”位 数据 类 型 


MySQL 有 少数 几 种 存储 类 型 使 用 紧凑 的 位 存储 数据 。 所 有 这 些 位 
类 型 ， 不 管 底层 存储 格式 和 处 理 方式 如 何 ， 从 技术 上 来 说 都 是 字符 串 


类 型 。 


BIT 


MX 


在 MySQL 5.0 之 前 ，BIT 是 TINYINT 的 同义词 。 但 是 在 
MySQL 5.0 以 及 更 新 版 本 ， 这 是 一 个 特性 完全 不 同 的 数据 类 型 。 
下 面 我 们 将 讨论 BIT 类 型 新 的 行为 特性 。 


可 以 使 用 BIT 列 在 一 列 中 存储 一 个 或 多 个 true/false 值 。BIT (1) 定 
个 包含 单个 位 的 字段 ，BIT (2) 存储 2 个 位 ， 依 此 类 推 。BIT 列 的 


大 长 度 是 64 个 位 。 


BIT 的 行为 因 存 储 引 擎 而 异 。MyISAM 会 打包 存储 所 有 的 BIT 
列 ， 所 以 17 个 单独 的 BIT 列 只 需要 17 个 位 存储 (假设 没有 可 为 
NULL 的 列 ) ， 这 样 MyISAM 只 使 用 3 个 字 节 就 能 存储 这 17 个 BIT 
列 。 其 他 存储 引擎 例如 Memory 和 InnoDB， 为 每 个 BIT 列 使 用 一 个 
足够 存储 的 最 小 整数 类 型 来 存放 ， 所 以 不 能 节省 存储 空间 。 


MySQL 把 BIT 当 作 字 符 串 类 型 ， 而 不 是 数字 类 型 。 当 检索 BIT 
(1) 的 值 时 ， 结 果 是 一 个 包含 二 进 制 0 或 1 值 的 字符 串 ， 而 不 是 
ASCII 码 的 “0” 或 “1”。 然 而 ， 在 数字 上 下 文 的 场景 中 检索 上 时， 结果 
将 是 位 字符 串 转换 成 的 数字 。 如 果 需 要 和 另外 的 值 比较 结果 ， 一 
定 要 记得 这 一 点 。 例 如 ， 如 果 存 储 一 个 值 b00111001 (二 进 制 值 
等 于 57) 到 BIT (8) 的 列 并 且 检 索 它 ， 得 到 的 内 容 是 字符 码 为 57 
的 字符 串 。 也 就 是 说 得 到 ASCII 码 为 57 的 字符 “9”。 但 是 在 数字 上 
下 文 场景 中 ， 得 到 的 是 数字 57: 


mysql> CREATE TABLE bittest(a bit(8)); 
mysql> INSERT INTO bittest VALUES(b'00111001' ); 


mysql> SELECT a, a + 0 FROM bittest; 
+------+-------+ 


+------+-------+ 


这 是 相当 令 人 费解 的 ， 所 以 我 们 认为 应 该 着 慎 使 用 BIT 类 
型 。 对 于 大 部 分 应 用 ， 最 好 避免 使 用 这 种 类 型 。 


如 果 想 在 一 个 bit 的 存储 空间 中 存储 一 个 true/false 值 ， 另 一 个 
方法 是 创建 一 个 可 以 为 空 的 CHAR (0) 列 。 该 列 可 以 保存 空 值 
(NULL) 或 者 长 度 为 零 的 字符 串 (SFA) o 


SET 


如 果 需 要 保存 很 多 true/false 值 ， 可 以 考虑 合并 这 些 列 到 一 个 
SET 数 据 类 型 ， 它 在 MySQL 内 部 是 以 一 系列 打包 的 位 的 集合 来 表 
示 的 。 这 样 就 有 效 地 利用 了 存储 空间 ， 并 且 MySQL 有 像 
FIND_IN_SETO 和 FIELDO 这 样 的 函数 ， 方 便 地 在 查询 中 使 用 。 它 
的 主要 缺点 是 改变 列 的 定义 的 代价 较 高 : 需要 ALTER TABLE, X 
对 大 表 来 说 是 非常 昂贵 的 操作 (但 是 本 章 的 后 面 给 出 了 解决 办 
法 ) 。 一 般 来 说 ， 也 无 法 在 SET 列 上 通过 索引 查找 。 


在 整数 列 上 进行 按 位 操作 


一 种 替代 SET 的 方式 是 使 用 一 个 整数 包装 一 系列 的 位 。 例 
如 ， 可 以 把 8 个 位 包装 到 一 个 TINYINT 中 ， 并 且 按 位 操作 来 使 
用 。 可 以 在 应 用 中 为 每 个 位 定义 名 称 常量 来 简化 这 个 工作 。 


比 起 SET ， 这 种 办 法 主要 的 好 处 在 于 可 以 不 使 用 ALTER 
TABLE 改 变 字段 代表 的 “ 枚 举 ” 值 ， 缺 点 是 查询 语句 更 难 写 ， 并 且 
更 难 理解 ( 当 第 5 个 bit 位 被 设置 时 是 什么 意思 ? ) 。 一 些 人 非常 
适应 这 种 方式 ， 也 有 一 些 人 不 适应 ， 所 以 是 否 采 用 这 种 技术 取决 
于 个 人 的 偏好 。 


一 个 包装 位 的 应 用 的 例子 是 保存 权限 的 访问 控制 列表 (ACL) 。 
每 个 位 或 者 SET 元 素 代表 一 个 值 ， 例 如 CAN_READ、CAN_WRITE， 
或 者 CAN_DELETE。 如 果 使 用 SET 列 ， 可 以 让 MySQL 在 列 定义 里 存储 
位 到 值 的 映射 关系 ; 如 果 使 用 整数 列 ， 则 可 以 在 应 用 代码 里 存储 这 个 
对 应 关系 。 这 是 使 用 SET 列 时 的 查询 : 


mysql> CREATE TABLE acl ( 
-> perms SET('CAN_READ', 'CAN WRITE', 'CAN DELETE') NOT NULL 
=> Ds 
mysql> INSERT INTO acl(perms) VALUES ('CAN READ,CAN DELETE’); 
mysql> SELECT perms FROM acl WHERE FIND IN SET('AN_READ', perms); 


+--------------------- + 
| perms | 
+--------------------- + 
| CAN_READ,CAN DELETE | 
+--------------------- + 


如 果 使 用 整数 来 存储 ， 则 可 以 参考 下 面 的 例子 : 


mysql> SET @CAN READ := 1 << 0, 
-> @CAN_WRITE := 1 «< 1, 
-> @CAN_DELETE := 1 << 25 
mysql> CREATE TABLE acl 


( 
-> perms TINYINT UNSIGNED NOT NULL DEFAULT 0 
= e 


3 
mysql> INSERT INTO acl(perms) VALUES(@CAN_READ + @CAN_DELETE); 


这 里 我 们 使 用 MySQL 变 量 来 定义 值 ， 但 是 也 可 以 在 代码 里 使 用 党 
BRB. 


4.1.6 ”选择 标识 符 (identifier) 


为 标识 列 (identifier column) 选择 合适 的 数据 类 型 非常 重要 。 一 
般 来 说 更 有 可 能 用 标识 列 与 其 他 值 进 行 比较 (例如 ， 在 关联 操作 


中 ) ， 或 者 通过 标识 列 寻找 其 他 列 。 标 识 列 也 可 能 在 另外 的 表 中 作为 
外 键 使 用 ， 所 以 为 标识 列 选 择 数据 类 型 时 ， 应 该 选择 跟 关 联 表 中 的 对 
应 列 一 样 的 类 型 (正如 我 们 在 本 章 早 些 时 候 所 论述 的 一 样 ， 在 相关 的 
表 中 使 用 相同 的 数据 类 型 是 个 好 主意 ， 因 为 这 些 列 很 可 能 在 关联 中 使 
FA) o 


当选 择 标 识 列 的 类 型 时 ， 不 仅仅 需要 考虑 存储 类 型 ， 还 需要 考虑 
MySQL 对 这 种 类 型 怎么 执行 计算 和 比较 。 例 如 ，MySQL 在 内 部 使 用 
整数 存储 ENUM 和 SET 类 型 ， 然 后 在 做 比较 操作 时 转换 为 字符 串 。 


一 旦 选 定 了 一 种 类 型 ， 要 确保 在 所 有 关联 表 中 都 使 用 同样 的 类 
型 。 类 型 之 间 需 要 精确 匹配 ， 包 括 像 UNSIGNED 这 样 的 属性 (HI。 混 用 
不 同 数据 类 型 可 能 导致 性 能 问题 ， 即 使 没有 性 能 影响 ， 在 比较 操作 时 
隐 式 类 型 转换 也 可 能 导致 很 难 发 现 的 错误 。 这 种 错误 可 能 会 很 久 以 后 
才 突 然 出 现 ， 那 时 候 可 能 都 已 经 忘记 是 在 比较 不 同 的 数据 类 型 。 

在 可 以 满足 值 的 范围 的 需求 ， 并 且 预 留 未 来 增长 空间 的 前 提 下 ， 
应 该 选择 最 小 的 数据 类 型 。 例 如 有 一 个 state_id 列 存储 美国 各 州 的 名 字 
4d2)， 就 不 需要 几 千 或 几 百 万 个 值 ， 所 以 不 需要 使 用 INT。TINYINT 足 
够 存储 ， 而 且 比 INT 少 了 3 个 字 节 。 如 果 用 这 个 值 作为 其 他 表 的 外 键 ， 
3 个 字 节 可 能 导致 很 大 的 性 能 差异 。 下 面 是 一 些小 技巧 。 
整数 类 型 

整数 通常 是 标识 列 最 好 的 选择 ， 因 为 它们 很 快 并 且 可 以 使 用 

AUTO_INCREMENT。 


ENUM 和 SET 类 型 


对 于 标识 列 来 说 ，EMUM 和 SET 类 型 通常 是 一 个 灶 糕 的 选 
择 ， 尽 管 对 某 些 只 包含 固定 状态 或 者 类 型 的 静态 “定义 表 ” 来 说 可 
能 是 没有 问题 的 。ENUM 和 SET 列 适合 存储 固定 信息 ， 例 如 有 序 
的 状态 、 产 品类 型 、 人 的 性 别 。 


举 个 例子 ， 如 果 使 用 枚 举 字段 来 定义 产品 类 型 ， 也 许 会 设计 
一 张 以 这 个 枚 举 字段 为 主键 的 查找 表 (可 以 在 查找 表 中 增加 一 些 
列 来 保存 描述 性 质 的 文本 ， 这 样 就 能 够 生成 一 个 术语 表 ， 或 者 为 
网 站 的 下 拉 菜 单 提供 有 意义 的 标签 ) 。 这 时 ， 使 用 枚 举 类 型 作为 
标识 列 是 可 行 的 ， 但 是 大 部 分 情况 下 都 要 避免 这 么 做 。 


字符 串 类 型 


如 果 可 能 ， 应 该 避免 使 用 字符 串 类 型 作为 标识 列 ， 因 为 它们 
很 消耗 空间 ， 并 且 通 常 比 数字 类 型 慢 。 尤 其 是 在 MyISAM 表 里 使 
用 字符 串 作为 标识 列 时 要 特别 小 心 。MyISAM 默 认 对 字符 串 使 用 
压缩 索引 ， 这 会 导致 查询 慢 得 多 。 在 我 们 的 测试 中 ， 我 们 注意 到 
最 多 有 6 倍 的 性 能 下 降 。 


对 于 完全 “随机 ”的 字符 串 也 需要 多 加 注意 ， 例 如 MD50、 
SHA10 或 者 UUIDO 产 生 的 字符 串 。 这 些 函 数 生成 的 新 值 会 任意 分 
布 在 很 大 的 空间 内 ， 这 会 导 臻 INSERT 以 及 一 些 SELECT 语 句 变 得 
R1803): 


因为 插入 值 会 随机 地 写 到 索引 的 不 同位 置 ， 所 以 使 得 INSERT 语 名 
更 慢 。 这 会 导致 页 分 裂 、 磁 盘 随 机 访问 ， 以 及 对 于 聚 得 存储 引擎 
产生 聚 族 索 引 碎 片 。 关 于 这 一 点 第 5 章 有 更 多 的 讨论 。 


。 SELECT 语句 会 变 得 更 慢 ， 因 为 逻辑 上 相 邻 的 行 会 分 布 在 磁盘 和 
内 存 的 不 同 地 方 。 

。 随机 值 导致 缓存 对 所 有 类 型 的 查询 语句 效果 都 很 差 ， 因 为 会 使 得 
缓存 赖 以 工作 的 访问 局 部 性 原理 失效 。 如 果 整 个 数据 集 都 一 样 的 
“ 热 "， 那 么 缓存 任何 一 部 分 特定 数据 到 内 存 都 没有 好 处 ;如果 工 
作 集 比 内 存 大 ， 缓 存 将 会 有 很 多 刷新 和 不 命中 。 


如 果 存 储 UUID 值 ， 则 应 该 移 除 “-” 符 号 ; 或 者 更 好 的 做 法 是 ， 用 
UNHEX() 浆 数 转 换 UUID 值 为 16 字 节 的 数字 ， 并 且 存 储 在 一 个 BINARY 
(16) 列 中 。 检 索 时 可 以 通过 HEX() 遂 数 来 格式 化 为 十 六 进 制 格式 。 


UUIDO 生 成 的 值 与 加 密 散 列国 数 例 如 SHA10 生 成 的 值 有 不 同 的 特 
征 : UUID 值 虽然 分 布 也 不 均匀 ， 但 还 是 有 一 定 顺 序 的 。 尽 管 如 此 ， 但 
还 是 不 如 递增 的 整数 好 用 。 


当心 自动 生成 的 schema 


我 们 已 经 介绍 了 大 部 分 重要 数据 类 型 的 考虑 有些 会 严重 影响 
性 能 ， 有 些 则 影响 较 小 ) ， 但 是 我 们 还 没有 提 到 自动 生成 的 schema 
RES ARE 


写 得 很 烂 的 schema 迁 移 程序 ， 或 者 自动 生成 schema 的 程序 ， 都 
会 导致 严重 的 性 能 问题 。 有 些 程序 存储 任何 东西 都 会 使 用 很 大 的 
VARCHAR 列 ， 或 者 对 需要 在 关联 时 比较 的 列 使 用 不 同 的 数据 类 
型 。 如 果 schema 是 自动 生成 的 ， 一 定 要 反复 检查 确认 没有 问题 。 


对 象 关系 映射 (ORM) 系统 (以 及 使 用 它们 的 “框架 *) 是 另 一 
种 常见 的 性 能 焉 梦 。 一 些 ORM 系 统 会 存储 任意 类 型 的 数据 到 任意 类 
型 的 后 端 数据 存储 中 ， 这 通常 意味 着 其 没有 设计 使 用 更 优 的 数据 类 
型 来 存储 。 有 时 会 为 每 个 对 象 的 每 个 属性 使 用 单独 的 行 ， 甚 至 使 用 
基于 时 间 戳 的 版 本 控制 ， 导 致 单个 属性 会 有 多 个 版 本 存在。 


这 种 设计 对 开发 者 很 有 吸引 力 ， 因 为 这 使 得 他 们 可 以 用 面向 对 
象 的 方式 工作 ， 不 需要 考虑 数据 是 怎么 存储 的 。 然 而 , “对 开发 者 
隐藏 复杂 性 ”的 应 用 通常 不 能 很 好 地 扩展 。 我 们 建议 在 用 性 能 交换 
开发 人 员 的 效率 之 前 仔细 考虑 ， 并 且 总 是 在 真实 大 小 的 数据 集 上 做 
测试 ， 这 样 残 不 会 太 晚 才 发 现 性 能 问题 。 


4.1.7 ”特殊 类 型 数据 


某 些 类 型 的 数据 并 不 直接 与 内 置 类 型 一 致 。 低 于 秒 级 精度 的 时 间 
戳 就 是 一 个 例子 本章 的 前 面部 分 也 演示 过 存储 此 类 数据 的 一 些 选 
项 。 


另 一 个 例子 是 一 个 IPv4 地 址 。 人 们 经 常 使 用 VARCHAR (15) 列 
来 存储 IP 地 址 。 然 而 ， 它 们 实际 上 是 32 位 无 符号 整数 ， 不 是 字符 串 。 
用 小 数 点 将 地 址 分 成 四 段 的 表示 方法 只 是 为 了 让 人 们 阅读 容易 。 所 以 
应 该 用 无 符号 整数 存储 IP 地 址 。MySQL 提 供 INET_ATONO 和 
INET_NTOA() 遂 数 在 这 两 种 表示 方法 之 间 转 换 。 


4.2 MySQL schema 设 计 中 的 陷阱 


虽然 有 一 些 普遍 的 好 或 坏 的 设计 原则 ， 但 也 有 一 些 问题 是 
MySQL 的 实现 机 制导 致 的 ， 这 意味 着 有 可 能 犯 一 些 只 在 MySQL 下 发 
生 的 特定 错误 。 本 节 我 们 讨论 设计 MySQL 的 schema 的 问题 。 这 也 许 会 
帮助 你 避免 这 些 错 误 ， 并 且 选 择 在 MySQL 特 定 实现 下 工作 得 更 好 的 替 
代 方 案 。 


太 多 的 列 


MySQL 的 存储 引擎 API 工 作 时 需要 在 服务 器 层 和 存储 引擎 层 
之 间 通 过 行 缓冲 格式 拷贝 数据 ， 然 后 在 服务 器 层 将 缓冲 内 容 解码 
成 各 个 列 。 从 行 缓冲 中 将 编码 过 的 列 转换 成 行 数据 结构 的 操作 代 
价 是 非常 高 的 。MyISAM 的 定 长 行 结构 实际 上 与 服务 器 层 的 行 结 
构 正 好 匹配 ， 所 以 不 需要 转换 。 然 而 ，MyISAM 的 变 长 行 结构 和 
InnoDB 的 行 结构 则 总 是 需要 转换 。 转 换 的 代价 依赖 于 列 的 数量 。 
当 我 们 研究 一 个 CPU 占用 非常 高 的 案例 时 ， 发 现 客户 使 用 了 非常 
宽 的 表 (AFTER) ， 然 而 只 有 一 小 部 分 列 会 实际 用 到 ， 这 时 
转换 的 代价 就 非常 高 。 如 果 计 划 使 用 数 千 个 字段 ， 必 须 意 识 到 服 
务 器 的 性 能 运行 特征 会 有 一 些 不 同 。 


太 多 的 天 联 


所 谓 的 “实体 -属性 - 值 ”(EAV) 设计 模式 是 一 个 常见 的 糟糕 设 
计 模 式 ， 尤 其 是 在 MySQL 下 不 能 靠 谱 地 工作 。MySQL 限 制 了 每 
个 关联 操作 最 多 只 能 有 61 张 表 ， 但 是 EAV 数 据 库 需 要 许多 自 关 
联 。 我 们 见 过 不 少 EAV 数 据 库 最 后 超过 了 这 个 限制 。 事 实 上 在 许 
多 关联 少 于 61 张 表 的 情况 下 ， 解 析 和 优化 查询 的 代价 也 会 成 为 
MySQL 的 问题 。 一 个 粗略 的 经 验 法 则 ， 如 果 希 望 查询 执行 得 快速 
且 并 发 性 好 ， 单 个 查询 最 好 在 12 个 表 以 内 做 关联 。 


全 能 的 枚 举 


注意 防止 过 度 使 用 枚 举 (ENUM) 。 下 面 是 我 们 见 过 的 一 个 
例子 : 


CREATE TABLE ... ( 


country enum('','0','1','2',...,'31') 


这 种 模式 的 schema 设 计 非 常 凌乱 。 这 么 使 用 枚 举 值 类 型 也 许 
在 任何 支持 枚 举 类 型 的 数据 库 都 是 一 个 有 问题 的 设计 方案 ， 这 里 
应 该 用 整数 作为 外 键 关 联 到 字典 表 或 者 查找 表 来 查找 具体 值 。 但 
是 在 MySQL 中 ， 当 需要 在 枚 举 列表 中 增加 一 个 新 的 国家 时 就 要 做 
一 次 ALTER TABLE 操 作 。 在 MySQL 5.0 以 及 更 早 的 版 本 中 ALTER 
TABLE 是 一 种 阻塞 操作 ; 即使 在 5.1 和 更 新 版 本 中 ， 如 果 不 是 在 列 
表 的 末尾 增加 值 也 会 一 样 需要 ALTER TABLE (我 们 将 展示 一 些 骇 
客 式 的 方法 来 避免 阻塞 操作 ， 但 是 这 只 是 驴 客 的 玩法 ， 别 轻易 用 
在 生产 环境 中 ) 。 


变相 的 枚 举 


枚 举 (ENUM) 列 允 许 在 列 中 存储 一 组 定义 值 中 的 单个 值 ， 
集合 (SET) 列 则 允许 在 列 中 存储 一 组 定义 值 中 的 一 个 或 多 个 
值 。 有 时 候 这 可 能 比较 容易 导致 混乱 。 这 是 一 个 例子 : 


CREATE TABLE ... ( 


is_default set ('Y','N') NOT NULL default 'N' 


如 果 这 里 真 和 假 两 种 情况 不 会 同时 出 现 ， 那 么 曼 无 疑问 应 该 使 用 
枚 举 列 代替 集合 列 。 


非 此 发 明 (Not Invent Here) 的 NULL 


我 们 之 前 写 了 避免 使 用 NULL 的 好 处 ， 并 且 建 议 尽 可 能 地 考 
虑 替代 方案 。 即 使 需要 存储 一 个 事实 上 的 “ 空 值 ”到 表 中 时 ， 也 不 
一 定 非得 使 用 NULL。 也 许可 以 使 用 0、 某 个 特殊 值 ， 或 者 空 字 符 
LFA. 


但 是 遵循 这 个 原则 也 不 要 走 极端 。 当 确实 需要 表示 未 知 值 时 
也 不 要 害怕 使 用 NULL。 在 一 些 场景 中 ， 使 用 NULL 可 能 会 比 某 个 
神奇 常数 更 好 。 从 特定 类 型 的 值 域 中 选择 一 个 不 可 能 的 值 ， 例 如 
用 -1 代表 一 个 未 知 的 整数 ， 可 能 导致 代码 复杂 很 多 ， 并 容易 引入 
bug， 还 可 能 会 让 事情 变 得 一 团 糟 。 处 理 NULL 确 实 不 容易 ， 但 有 
时 候 会 比 它 的 替代 方案 更 好 。 


下 面 是 一 个 我 们 经 常 看 到 的 例子 : 


CREATE TABLE ...( 


dt DATETIME NOT NULL DEFAULT '0000-00-00 00:00:00' 


伪造 的 全 0 值 可 能 导致 很 多 问题 《可 以 配置 MySQL 的 
SQL_MODE 来 禁止 不 可 能 的 日 期 ， 对 于 新 应 用 这 是 个 非常 好 的 实 
践 经 验 ， 它 不 会 让 创建 的 数据 库 里 充满 不 可 能 的 值 ) 。 值 得 一 提 
的 是 ，MySQL 会 在 索引 中 存储 NULL 值 ， 而 Oracle 则 不 会 。 


4.3 ”范式 和 反 范 式 


对 于 任何 给 定 的 数据 通常 都 有 很 多 种 表示 方法 ， 从 完全 的 范式 化 
到 完全 的 反 范式 化 ， 以 及 两 者 的 折 中 。 在 范式 化 的 数据 库 中 ， 每 个 事 
实数 据 会 出 现 并 且 只 出 现 一 次 。 相 反 ， 在 反 范式 化 的 数据 库 中 ， 信 息 
是 匈 余 的 ， 可 能 会 存储 在 多 个 地 方 。 


如 果 不 熟 悉 范 式 ， 则 应 该 先 学 习 一 下 。 有 很 多 这 方面 的 不 错 的 书 
和 在 线 资源 ， 在 这 里 ， 我 们 只 是 给 出 阅读 本 章 所 需要 的 这 方面 的 简单 
介绍 。 下 面 以 经 典 的 “雇员 ， 部 门 ， 部 门 领导 ”的 例子 开始 : 


EMPLOYEE DEPARTMENT HEAD 


这 个 schema 的 问题 是 修改 数据 时 可 能 发 生 不 一 致 。 假 如 Say Brown 
接任 Accounting 部 门 的 领导 ， 需 要 修改 多 行 数据 来 反映 这 个 变化 ， 这 
是 很 痛苦 的 事 并 且 容 易 引 入 错误 。 如 果 “Jones” 这 一 行 显示 部 门 的 领导 
跟 “Brown” 这 一 行 的 不 一 样 ， 就 没有 办 法 知道 哪个 是 对 的 。 这 就 像 是 
有 句 老 话说 的 :“ 一 个 人 有 两 块 手表 就 永远 不 知道 时 间 ”。 此 外 ， 这 个 
设计 在 没有 雇员 信息 的 情况 下 就 无 法 表示 一 个 部 门 一 一 如 果 我 们 删除 


了 所 有 Accounting 部 门 的 雇员 ， 我 们 就 失去 了 关于 这 个 部 门 本 身 的 所 
有 记录 。 要 避免 这 个 问题 ， 我 们 需要 对 这 个 表 进 行 范 式 化 ， 方 式 是 拆 
分 雇员 和 部 门 项 。 拆 分 以 后 可 以 用 下 面 两 张 表 分 别 来 存储 雇员 表 : 


EMPLOYEE_NAME DEPARTMENT 


和 部 门 表 : 


DEPARTMENT HEAD 


这 样 设计 的 两 张 表 符合 第 二 范式 ， 在 很 多 情况 下 做 到 这 一 步 已 经 
足够 好 了 。 然 而 ， 第 二 范式 只 是 许多 可 能 的 范式 中 的 一 种 。 


“tp 上 这 个 例子 中 我 们 使 用 给 (Last Name) 作为 主键 ， 因 为 这 是 数据 的 自然 标识 "。 从 


实践 来 看 ， 无 论 如 何 都 不 应 该 这 么 用 。 这 有 既 不 能 保证 唯一 性 ， 而 且 用 一 个 很 长 的 字符 串 作 为 
主键 是 很 糟糕 的 主意 。 


4.3.1 BRAIAS 


当 为 性 能 问题 而 寻求 帮助 时 ， 经 常会 被 建议 对 schema 进 行 沁 式 化 


设计 ， 尤 其 是 写 密集 的 场景 。 这 通常 是 个 好 建议 。 因 为 下 面 这 些 原 


Al, 


泄 陈 化 通 单 能 够 市 来 好 处 : 


范式 化 的 更 新 操作 通常 比 反 范式 化 要 快 。 

当 数 据 较 好 地 范式 化 时 ， 就 只 有 很 少 或 者 没有 重复 数据 ， 所 以 只 
需要 修改 更 少 的 数据 。 

范式 化 的 表 通 常 更 小 ， 可 以 更 好 地 放 在 内 存 里 ， 所 以 执行 操作 会 
更 快 。 

很 少 有 多 余 的 数据 意味 着 检索 列表 数据 时 更 少 需要 DISTINCT 或 
者 GROUP BY 语句 。 还 是 前 面 的 例子 : 在 非 范 式 化 的 结构 中 必须 
使 用 DISTINCT 或 者 GROUP BY 才能 获得 一 份 唯一 的 部 门 列表 ， 
但 是 如 果 部 门 (DEPARTMENT) 是 一 张 单独 的 表 ， 则 只 需要 简 
单 的 查询 这 张 表 就 行 了 。 


泄 式 化 设计 的 schema 的 缺点 是 通 单 需要 天 联 。 稍 微 复杂 一 些 的 碍 


询 语句 在 符合 范式 的 schema 上 都 可 能 需要 至 少 一 次 关联 ， 也 许 更 多 。 
这 不 但 代价 昂贵 ， 也 可 能 使 一 些 索引 策略 无 效 。 例 如 ， 范 式 化 可 能 将 
列 存 放 在 不 同 的 表 中 ， 而 这 些 列 如 果 在 一 个 表 中 本 可 以 属于 同一 个 索 


引 。 


4.3.2” 反 范式 的 优 所 和 缺 扣 


反 泥 式 化 的 schema 因 为 所 有 效 据 都 在 一 张 表 中 ， 可 以 很 好 地 避免 
天 联 。 


如 果 不 需 要 关联 表 ， 则 对 大 部 分 查询 最 差 的 情况 一 一 即使 表 没 有 
使 用 索引 一 一 是 全 表 扫 描 。 当 数据 比 内 存 大 时 这 可 能 比 关 联 要 快 得 
多 ， 因 为 这 样 避 免 了 随机 IO49)。 


单独 的 表 也 能 使 用 更 有 效 的 索引 梨 略 。 假 设 有 一 个 网 站 ， 人 允许 用 
户 发 送 消 息 ， 并 且 一 些 用 户 是 付费 用 户 。 现 在 想 查 看 付费 用 户 最 近 的 
10 条 信息 。 如 果 是 范式 化 的 结构 并 且 索 引 了 发 送 日 期 字段 published， 
这 个 查询 也 许 看 起 来 像 这 样 : 


mysql> SELECT message_text, user_name 
-> FROM message 
-> INNER JOIN user ON message.user_id=user.id 
-> WHERE user.account_type='premiumv 


-> ORDER BY message.published DESC LIMIT 10; 


要 更 有 效 地 执行 这 个 查询 ，MySQL S E H jË message K AY 
published 字 段 的 索引 。 对 于 每 一 行 找到 的 数据 ， 将 需要 到 user 表 里 检 
查 这 个 用 户 是 不 是 付费 用 户 。 如 果 只 有 一 小 部 分 用 户 是 付费 账户 ， 那 
么 这 是 效率 低下 的 做 法 。 


另 一 种 可 能 的 执行 计划 是 从 user 表 开始 ， 选 择 所 有 的 付费 用 户 ， 
获得 他 们 所 有 的 信息 ， 并 且 排 序 。 但 这 可 能 更 加 糟糕 。 


主要 问题 是 关联 ， 使 得 需要 在 一 个 索引 中 又 排序 又 过 滤 。 如 果 采 
用 反 范 式 化 组 织 数据 ， 将 两 张 表 的 字段 合并 一 下 ， 并 且 增 加 一 个 索引 


(account_type, published) ， 就 可 以 不 通过 关联 写 出 这 个 查询 。 这 将 
非常 高 效 : 


mysql> SELECT message_ text,user_name 
-> FROM User_messages 


-> WHERE account_type='premium' 


1 
V 


ORDER BY published DESC 


1 
V 


LIMIT 10; 


4.3.3 ”混用 范式 化 和 反 范 式 化 


范式 化 和 反 范 式 化 的 schema 各 有 优 劣 ， 怎 么 选择 最 佳 的 设计 ? 


事实 是 ， 完 全 的 范式 化 和 完全 的 有 反 范 式 化 schema 都 是 实验 室 里 才 
有 的 东西 : 在 真实 世界 中 很 少 会 这 么 极端 地 使 用 。 在 实际 应 用 中 经 常 
需要 混用 ， 可 能 使 用 部 分 范式 化 的 schema、 缓 存 表 ， 以 及 其 他 技巧 。 


最 常见 的 反 范 式 化 数据 的 方法 是 复制 或 者 缓存 ， 在 不 同 的 表 中 存 
储 相同 的 特定 列 。 在 MySQL 5.0 和 更 新 版 本 中 ， 可 以 使 用 触发 器 更 新 
缓存 值 ， 这 使 得 实现 这 样 的 方案 变 得 更 简单 。 


在 我 们 的 网 站 实例 中 ， 可 以 在 user 表 和 message 表 中 都 存储 
account_type 字 段 ， 而 不 用 完全 的 反 范 式 化 。 这 避免 了 完全 反 范 式 化 的 
插入 和 删除 问题 ， 因 为 即使 没有 消息 的 时 候 也 绝 不 会 丢失 用 户 的 信 
息 。 这 样 也 不 会 把 user_ message 表 搞 得 太 大 ， 有 利于 高 效 地 获取 数 
据 。 


但 是 现在 更 新 用 户 的 账户 类 型 的 操作 代价 就 高 了 ， 因 为 需要 同时 
更 新 两 张 表 。 至 于 这 会 不 会 是 一 个 问题 ， 需 要 考虑 更 新 的 频率 以 及 更 
新 的 时 长 ， 并 和 执行 SELECT 查 询 的 频率 进行 比较 。 


另 一 个 从 父 表 元 余 一 些 数 据 到 子 表 的 理由 是 排序 的 需要 。 例 如 ， 
在 范式 化 的 schema 里 通过 作者 的 名 字 对 消息 做 排序 的 代价 将 会 非常 
高 ， 但 是 如 果 在 message 表 中 缓存 author_name 字 段 并 且 建 好 索引 ， 则 
可 以 非常 高 效 地 完成 排序 。 


缓存 衍生 值 也 是 有 用 的 。 如 果 需 要 显示 每 个 用 户 发 了 多 少 消息 
( 像 很 多 论坛 做 的 ) ， 可 以 每 次 执行 一 个 昂贵 的 子 查 询 来 计算 并 显示 
E; 也 可 以 在 user 表 中 建 一 个 num_messages 列 ， 每 当 用 户 发 新 消息 时 
更 新 这 个 值 。 


44 缓存 表 和 汇总 表 


有 时 提升 性 能 最 好 的 方法 是 在 同一 张 表 中 保存 衍生 的 也 余数 气 。 
然而 ， 有 时 也 需要 创建 一 张 完 全 独立 的 汇总 表 或 缓存 表 (特别 是 为 满 
足 检 索 的 需求 时 ) 。 如 果 能 容许 少量 的 脏 数据 ， 这 是 非常 好 的 方法 ， 
但 是 有 时 确实 没有 选择 的 余地 (例如 ， 需 要 避免 复杂 、 昂 贵 的 实时 更 
新 操作 ) o 


术语 “缓存 表 ” 和 “汇总 表 ” 没 有 标准 的 含义 。 我 们 用 术语 “缓存 表 ” 
来 表示 存储 那些 可 以 比较 简单 地 从 schema 其 他 表 获 取 (但 是 每 次 获取 
的 速度 比较 慢 ) SHEA (GIN, WBE TRASH) 。 而 术语 “汇总 
表 ” 时 ， 则 保存 的 是 使 用 GROUP BY 语句 聚合 数据 的 表 〈 例 如 ， 数 据 不 


是 逻辑 上 元 余 的 ) 。 也 有 人 使 用 术语 “累积 表 (Roll-Up Table) ”称呼 
这 些 表 。 因 为 这 些 数 据 被 “累积 "了 。 


仍然 以 网 站 为 例 ， 假 设 需 要 计算 之 前 24 小 时 内 发 送 的 消息 数 。 在 
一 个 很 繁忙 的 网 站 不 可 能 维护 一 个 实时 精确 的 计数 器 。 作 为 替代 方 
案 ， 可 以 每 小 时 生成 一 张 汇总 表 。 这 样 也 许 一 条 简单 的 查询 就 可 以 做 
到 ， 并 且 比 实时 维护 计数 器 要 高 效 得 多 。 缺 点 是 计数 器 并 不 是 100% 精 
确 。 


如 果 必 须 获得 过 去 24 小 时 准确 的 消息 发 送 数量 〈 没 有 遗漏 ) ， 有 
另外 一 种 选择 。 以 每 小 时 汇总 表 为 基础 ， 把 前 23 个 完整 的 小 时 的 统计 
表 中 的 计数 全 部 加 起 来 ， 最 后 再 加 上 开始 阶段 和 结束 阶段 不 完整 的 小 
时 内 的 计数 。 假 设 统计 表 叫 作 msg_per_ hr 并 且 这 样 定义 : 


CREATE TABLE msg_per_hr ( 
hr DATETIME NOT NULL, 
cnt INT UNSIGNED NOT NULL, 
PRIMARY KEY(hr) 

) ; 


可 以 通过 把 下 面 的 三 个 语句 的 结果 加 起 来 ， 得 到 过 去 24 小 时 发 送 
消息 的 总 数 。 我 们 使 用 LEFT (NOW0,14) 来 获得 当前 的 日 期 和 时 间 
最 接近 的 小 时 : 


mysql> SELECT SUM(cnt) FROM msg_per_hr 


-> WHERE hr BETWEEN 


CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 23 
HOUR 
-> AND CONCAT(LEFT(NOW(), 14), '00:00') - INTERVAL 1 
HOUR; 
mysql> SELECT COUNT(*) FROM message 
-> WHERE posted >= NOW() - INTERVAL 24 HOUR 
-> AND posted < CONCAT(LEFT(NOW(), 14), '00:00') - 
INTERVAL 23 HOUR; 
mysql> SELECT COUNT(*) FROM message 


-> WHERE posted >= CONCAT(LEFT(NOW(), 14), '00:00'); 


不 管 是 哪 种 方法 一 一 不 严格 的 计数 或 通过 小 范围 查询 填 满 间 隐 的 
严格 计数 一 一 都 比 计算 message 表 的 所 有 行 要 有 效 得 多 。 这 是 建立 汇总 


表 的 最 关键 原因 。 实 时 计算 统计 值 是 很 昂贵 的 操作 ， 因 为 要 么 需要 扫 
首 表 中 的 大 部 分 数据 ， 要 么 查询 语句 只 能 在 某 些 特定 的 索引 上 才能 

效 运行 ， 而 这 类 特定 索引 一 般 会 对 UPDATE 操 作 有 影响 ， 所 以 一 般 不 
希望 创建 这 样 的 索引 。 计 算 最 活路 的 用 户 或 者 最 常见 的 “标签 "是 这 种 
操作 的 典型 例子 。 


缓存 表 则 相反 ， 其 对 优化 搜索 和 检索 查询 语句 很 有 效 。 这 些 查 询 
语句 经 单 需要 特殊 的 表 和 索引 结构 ， 跟 普通 OLTP 操 作用 的 表 有 些 区 


别 。 


例如 ， 可 能 会 需要 很 多 不 同 的 索引 组 合 来 加 速 各 种 类 型 的 查询 。 
这 些 矛盾 的 需求 有 时 需要 创建 一 张 只 包含 主 表 中 部 分 列 的 缓存 表 。 一 
个 有 用 的 拉 巧 是 对 缓存 表 使 用 不 同 的 存储 5 引擎。 例如 ， 如 果 主 表 使 用 
InnoDB ， 用 MyISAM 作 为 缓存 表 的 引擎 将 会 得 到 更 小 的 索引 占用 空 
间 ， 并 且 可 以 做 全 文 搜索 。 有 时 甚至 想 把 整个 表 导 出 MySQL ， 插 入 到 


专门 的 搜索 系统 中 获得 更 高 的 搜索 效率 ， 例 如 Lucene 或 者 Sphinx 搜 索 


引擎 。 


在 使 用 缓存 表 和 汇总 表 时 ， 必 须 决定 是 实时 维护 数据 还 是 定期 重 
建 。 哪 个 更 好 依赖 于 应 用 程序 ， 但 是 定期 重建 并 不 只 是 节省 资源 ， 也 
可 以 保持 表 不 会 有 很 多 碎片 ， 以 及 有 完全 顺序 组 织 的 索引 (这 会 更 加 
高 效 ) 。 


当 重 建 汇总 表 和 缓存 表 时 ， 通 常 需要 保证 数据 在 操作 时 依然 可 
用 。 这 就 需要 通过 使 用 “影子 表 ” 来 实现 , “影子 表 ” 指 的 是 一 张 在 真实 
表 “ 背 后 ”创建 的 表 。 当 完成 了 建 表 操作 后 ， 可 以 通过 一 个 原子 的 重 命 
名 操作 切换 影子 表 和 原 表 。 例 如 ， 如 果 需 要 重建 my_summary， 则 可 以 
先 创 建 my_summary_new， 然 后 填充 好 数据 ， 最 后 和 真实 表 做 切换 : 


mysql> DROP TABLE IF EXISTS my_summary_new, my_summary_old; 
mysql> CREATE TABLE my_summary_new LIKE my_summary; 
- populate my_summary_new as desired 
mysql> RENAME TABLE my_summary TO my_summary_old, 


my_summary_new TO my_summary; 


如 果 像 上 面 的 例子 一 样 ， 在 将 my_summary 这 个 名 字 分 配给 新 建 的 
表 之 前 将 原始 的 my_summary 表 重 命 名 为 my_summary_old， 就 可 以 在 
下 一 次 重建 之 前 一 直 保 留 旧版 本 的 数据 。 如 果 新 表 有 问题 ， 则 可 以 很 
容易 地 进行 快速 回 滚 操作 。 


44.1 物化 视图 


许多 数据 库 管理 系统 (例如 Oracle 或 者 微软 SQL Server) 都 提供 了 
一 个 被 称 作物 化 视图 的 功能 。 物 化 视图 实际 上 是 预先 计算 并 且 存 储 在 
磁盘 上 的 表 ， 可 以 通过 各 种 各 样 的 策略 刷新 和 更 新 。MySQL 并 不 原生 
支持 物化 视图 (我 们 将 在 第 7 章 详 细 探 讨 支持 这 种 视图 的 细节 ) 。 然 
而 ， 使 用 Justin Swanhart AY FA WR I 具 Flexviews 
(http:/code.google.com/p/flexviews/) ， 也 可 以 自己 实现 物化 视图 。 
Flexviews 比 完全 自己 实现 的 解决 方案 要 更 精细 ， 并 且 提 供 了 很 多 不 错 
的 功能 使 得 可 以 更 简单 地 创建 和 维护 物化 视图 。 它 由 下 面 这 些 部 分 组 
成 : 


变更 数据 抓 取 (Change Data Capture，CDC) 功能 ， 可 以 读 取 服 
务 器 的 二 进 制 日 志 并 且 解 析 相 关 行 的 变更 。 

。 一 系列 可 以 帮助 创建 和 管理 视图 的 定义 的 存储 过 程 。 

一 些 可 以 应 用 变更 到 数据 库 中 的 物化 视图 的 工具 。 


对 比 传统 的 维护 汇总 表 和 缓存 表 的 方法 ，Flexviews 通 过 提取 对 源 
表 的 更 改 ， 可 以 增 量 地 重新 计算 物化 视图 的 内 容 。 这 意味 着 不 需要 通 
过 查询 原始 数据 来 更 新 视图 。 例 如 ， 如 果 创 建 了 一 张 汇总 表 用 于 计算 
每 个 分 组 的 行 数 ， 此 后 增加 了 一 行 数据 到 源 表 中 ，Flexviews 简 单 地 给 
相应 的 组 的 行 数 加 一 即 可 。 同 样 的 技术 对 其 他 的 聚合 水 数 也 有 效 ， 例 
如 SUMO 和 AVG()。 这 实际 上 是 有 好 处 的 ， 基 于 行 的 二 进 制 日 志 包 含 
行 更 新 前 后 的 镜像 ， 所 以 Flexviews 不 仅仅 可 以 获得 每 行 的 新 值 ， 还 可 
以 不 需要 查找 源 表 就 能 知道 每 行 数据 的 旧版 本 。 计 算 增 量 数据 比 从 源 
表 中 读 取 数据 的 效率 要 高 得 多 。 


因为 版 面 的 限制 ， 这 里 我 们 不 会 完整 地 探讨 怎么 使 用 Flexviews， 
但 是 可 以 给 出 一 个 概略 。 先 写 出 一 个 SELECT 语 句 描 述 想 从 已 经 存在 
的 数据 库 中 得 到 的 数据 。 这 可 能 包含 关联 和 聚合 (GROUP BY) 。 


Flexviews 中 有 一 个 辅助 工具 可 以 转换 SQL 语句 到 Flexviews 的 API 调 
用 。Flexviews 会 做 完 所 有 的 脏 活 、 累 活 : 监控 数据 库 的 变更 并 且 转 换 
后 用 于 更 新 存储 物化 视图 的 表 。 现 在 应 用 可 以 简单 地 查询 物化 视图 来 
替代 查询 需要 检索 的 表 。 


Flexviews 有 不 错 的 SQL 宪 盖 范 围 ， 包 括 一 些 来 手 的 表达 式 ， 你 可 
能 没有 料 到 一 个 工具 可 以 在 MySQL 服 务 器 之 外 处 理 这 些 工 作 。 这 一 点 
对 创建 基于 复杂 SQL 表达 式 的 视图 很 有 用 ， 可 以 用 基于 物化 视图 的 简 
单 、 快 速 的 碍 询 蔡 换 原 来 复杂 的 查询。 


4.4.2 ”计数 器 表 


如 果 应 用 在 表 中 保存 计数 器 ， 则 在 更 新 计数 器 时 可 能 碰 到 并 发 问 
题 。 计 数 器 表 在 Web 应 用 中 很 常见 。 可 以 用 这 种 表 缓 存 一 个 用 户 的 朋 
友 数 、 文 件 下 载 次 数 等 。 创 建 一 张 独立 的 表 存 储 计数 器 通常 是 个 好 主 
意 ， 这 样 可 使 计数 器 表 小 且 快 。 使 用 独立 的 表 可 以 帮助 避免 查询 缓存 
失效 ， 并 且 可 以 使 用 本 市 展示 的 一 些 更 高 级 的 技 15。 


应 该 让 事情 变 得 尽 可 能 简单 ， 假 设 有 一 个 计数 器 表 ， 只 有 一 行 数 
据 ， 记 录 网 站 的 点 击 次 数 : 


mysql> CREATE TABLE hit counter ( 
-> cnt int unsigned not null 


-> ) ENGINE=InnoDB; 


网 站 的 每 次 点 击 都 会 导致 对 计数 器 进行 更 新 : 


mysql> UPDATE hit_counter SET cnt = cnt + 1; 


问题 在 于 ， 对 于 任何 想 要 更 新 这 一 行 的 事务 来 说 ， 这 条 记录 上 都 
有 一 个 全 局 的 互 斥 锁 (mutex) 。 这 会 使 得 这 些 事务 只 能 串 行 执行 。 要 
获得 更 高 的 并 发 更 新 性 能 ， 也 可 以 将 计数 器 保存 在 多 行 中 ， 每 次 随机 
选择 一 行进 行 更 新 。 这 样 做 需要 对 计数 器 表 进行 如 下 修改 : 


mysql> CREATE TABLE hit counter ( 
-> slot tinyint unsigned not null primary key, 
-> cnt int unsigned not null 


-> ) ENGINE=InnoDB; 


然后 预先 在 这 张 表 增加 100 行 数据 。 现 在 选择 一 个 随机 的 模 
(slot) 进行 更 新 : 


mysql> UPDATE hit_counter SET cnt = cnt + 1 WHERE slot = 
RAND() * 100; 


要 获得 统计 结果 ， 需 要 使 用 下 面 这 样 的 聚合 查询 : 


mysql> SELECT SUM(cnt) FROM hit_counter; 


一 个 常见 的 需求 是 每 隔 一 段 时 间 开始 一 个 新 的 计数 器 (例如 ， 每 
天 一 个 ) 。 如 果 需 要 这 么 做 ， 则 可 以 再 简单 地 修改 一 下 表 设 计 : 


mysql> CREATE TABLE daily_hit_counter ( 
day date not null, 

slot tinyint unsigned not null, 
cnt int unsigned not null, 
primary key(day, slot) 


-> ) ENGINE=InnoDB; 


在 这 个 场景 中 ， 可 以 不 用 像 前 面 的 例子 那样 预先 生成 行 ， 而 用 ON 
DUPLICATE KEY UPDATE 代 替 : 


mysql> INSERT INTO daily _hit_counter(day, slot, cnt) 
-> | VALUES(CURRENT_DATE, RAND() * 100, 1) 


-> ON DUPLICATE KEY UPDATE cnt = cnt + 1; 


如 果 和 希望 减少 表 的 行 数 ， 以 避免 表 变 得 太 大 ， 可 以 写 一 个 周期 执 
行 的 任务 ， 合 并 所 有 结果 到 0 号 模 ， 并 且 删 除 所 有 其 他 的 模 : 


mysql> UPDATE daily_hit_counter as c 
INNER JOIN ( 
SELECT day, SUM(cnt) AS cnt, MIN(slot) AS mslot 


FROM daily_hit_counter 


-> GROUP BY day 

-> ) AS x USING(day) 

-> SET c.cnt = IF(c.slot = x.mslot, x.cnt, 0), 
=) c.slot = IF(c.slot = x.mslot, 0, c.slot); 


mysql> DELETE FROM daily hit counter WHERE slot <> © AND 


cnt = 0; 


更 快 地 读 ， 更 慢 地 写 


为 了 提升 读 查 询 的 速度 ， 经 常会 需要 建 一 些 额外 索引 ， 增 加 克 
余 列 ， 甚 至 是 创建 缓存 表 和 汇总 表 。 这 些 方法 会 增加 写 查 询 的 负 
担 ， 也 需要 额外 的 维护 任务 ， 但 在 设计 高 性 能 数据 库 时 ， 这 些 都 是 
单 见 的 技巧 : 虽然 写 操作 变 得 更 慢 了 ， 但 更 显著 地 提高 了 读 操作 的 
性 能 。 


然而 ， 写 操作 变 慢 并 不 是 读 操作 变 得 更 快 所 付出 的 唯一 代价 ， 
还 可 能 同时 增加 了 读 操作 和 写 操作 的 开发 难度 。 


4.5 DIRALTER TABLE 操 作 的 速 
度 


MySQL 的 ALTER TABLE 操 作 的 性 能 对 大 表 来 说 是 个 大 问题 。 
MySQL 执 行 大 部 分 修改 表 结 构 操作 的 方法 是 用 新 的 结构 创建 一 个 空 
表 ， 从 旧 表 中 查 出 所 有 数据 插入 新 表 ， 然 后 删除 旧 表 。 这 样 操作 可 能 
需要 花费 很 长 时 间 ， 如 果 内 存 不 足 而 表 又 很 大 ， 而 且 还 有 很 多 索引 的 
情况 下 尤其 如 此 。 许 多 人 都 有 这 样 的 经 验 ，ALTER TABLE 操 作 需 要 花 
费 数 个 小 时 甚至 数 天 才能 完成 。 


MySQL 5.1 以 及 更 新 版 本 包含 一 些 类 型 的 “在 线 ” 操 作 的 支持 ， 这 
些 功能 不 需要 在 整个 操作 过 程 中 锁 表 。 ee 
过 排序 来 建 索 引 ， 这 使 得 建 索 引 更 快 并 且 有 一 个 紧凑 的 索引 布局 。 


一 般 而 言 ， 大 部 分 ALTER TABLE 操 作 将 导致 MySQL 服 务 中 断 。 
我 们 会 展示 一 些 在 DDL 操 作 时 有 用 的 技巧 ， 但 这 是 针对 一 些 特殊 的 场 
景 而 言 的 。 对 常见 的 场景 ， 能 使 用 的 技巧 只 有 两 种 : 一 种 是 先 在 一 台 
不 提供 服务 的 机 器 上 执行 ALTER TABLE 操 作 ， 然 后 和 提供 服务 的 主 库 
进行 切换 ;另外 一 种 技巧 是 “影子 拷贝 ”。 影 子 拷 由 的 技巧 是 用 要 求 的 
表 结构 创 建 一 张 和 源 表 无 关 的 新 表 ， 然 后 通过 重 命 名 和 删 表 操作 交换 
两 张 表 。 也 有 一 些 工具 可 以 帮助 完成 影子 拷贝 工作 : 例如 ，Facebook 
数据 库 运 维 团 队 (https:/launchpad.net/mysqlatfacebook) 的 “online 
schema change” I 具 、 Shlomi Noach 的 openark toolkit 
( http://code.openark.org/ ) ) 以 KR Percona Toolkit 
(http://www.percona.com/software/) 。 如 果 使 用 Flexviews (参考 4.4.1 
节 ) ， 也 可 以 通过 其 CDC 工 具 执 行 无 锁 的 表 结 构 变 更 


不 是 所 有 的 ALTER TABLE 操 作 都 会 引起 表 重 建 。 例 如 ， 有 两 种 方 
法 可 以 改变 或 者 删除 一 个 列 的 默认 值 〈 一 种 方法 很 快 ， 另 外 一 种 则 很 
慢 ) 。 假 如 要 修改 电影 的 默认 租赁 期 限 ， 从 三 天 改 到 五 天 。 下 面 是 很 
慢 的 方式 : 


mysql> ALTER TABLE sakila. film 
-> MODIFY COLUMN rental_duration TINYINT(3) NOT NULL 


DEFAULT 5; 


SHOW STATUS 显示 这 个 语句 做 了 1000 次 读 和 1000 次 插入 操作 。 
换 句 话说 ， 它 拷贝 了 整 张 表 到 一 张 新 表 ， 甚 至 列 的 类 型 、 大 小 和 可 和 否 
为 NULL 属 性 都 没 改变 。 


理论 上 ，MySQL 可 以 跳 过 创建 新 表 的 步骤 。 列 的 默认 值 实际 上 存 
在 表 的 .fm 文件 中 ， 所 以 可 以 直接 修改 这 个 文件 而 不 需要 改动 表 本 
身 。 然 而 MySQL 还 没有 采用 这 种 优化 的 方法 ， 所 有 的 MODIFY 
COLUMN 操 作 都 将 导致 表 重 建 。 


另外 一 种 方法 是 通过 ALTER COLUMN(19 操 作 来 改变 列 的 默认 
值 : 


mysql> ALTER TABLE sakila. film 


-> ALTER COLUMN rental_duration SET DEFAULT 5; 


这 个 语句 会 直接 修改 .frm 文 件 而 不 涉及 表 数 据 。 所 以 ， 这 个 操作 
EFFE TRAY 


45.1 ”只 修改 .frm 文 件 


从 上 面 的 例子 我 们 看 到 修改 表 的 .frm 文 件 是 很 快 的 ， 但 MySQL 有 
时 候 会 在 没有 必要 的 时 候 也 重建 表 。 如 果 愿 意 冒 一 些 风 险 ， 可 以 让 
MySQL 做 一 些 其 他 类 型 的 修改 而 不 用 重建 表 。 


一 | 我 们 下 面 要 演 示 的 技巧 是 不 受 官 万 支持 的 ， 也 没有 文档 记录 ， 并 且 也 可 能 不 能 


正常 工作 ， 采 用 这 些 技术 需要 自己 承担 风险 。 建 议 在 执行 之 前 首先 备份 数据 | 


下 面 这 些 操作 是 有 可 能 不 需要 重建 表 的 : 


。 移 除 (不 是 增加 ) 一 个 列 的 AUTO_INCREMENT 属 性 。 
。 增 加 、 移 除 ， 或 更 改 ENUM 和 SET 常量 。 如 果 移 除 的 是 已 经 有 行 
数据 用 到 其 值 的 常量 ， 查 询 将 会 返回 一 个 空 字 串 值 。 


基本 的 技术 是 为 想 要 的 表 结 构 创 建 一 个 新 的 .frm 文 件 ， 然 后 用 它 
蔡 换 掉 已 经 存在 的 那 张 表 的 .frm 文 件 ， 像 下 面 这 样 : 


1. 创建 一 张 有 相同 结构 的 空 表 ， 并 进行 所 需要 的 修改 (例如 增加 
ENUM 常 量 ) 。 

2. 执行 FLUSH TABLES WITH READ LOCK。 这 将 会 关闭 所 有 正在 
使 用 的 表 ， 并 且 禁 止 任何 表 被 打开 。 
交换 .frm 文 件 . 

4. 执行 UNLOCK TABLES 来 释放 第 2 步 的 读 锁 。 


下 面 以 给 sakila.fIm 表 的 rating 列 增加 一 个 常量 为 例 来 说 明 。 当 前 列 
看 起 来 如 下 : 


mysql> SHOW COLUMNS FROM sakila.film LIKE 'rating'; 


+--------+------------------------------------+------+-----+---------+-------+ 


===-=--==-- 十 -==<-~=------=--=-------------=----------- 十 ------ 十 -=~=-=-= 十 -=~----=-- 十 -=~-~=---- 


假设 我 们 需要 为 那些 对 电影 更 加 谨慎 的 父母 们 增加 一 个 PG-14 的 
电影 分 级 : 


mysql> CREATE TABLE sakila.film new LIKE sakila.film; 


mysql> ALTER TABLE sakila.film new 


-> MODIFY COLUMN rating ENUM('G', 'PG', 'PG-13', 'R', 'NC- 
17', 'PG-14') 
-> DEFAULT 'G'; 
mysql> FLUSH TABLES WITH READ LOCK; 


注意 ， 我 们 是 在 常量 列表 的 末尾 增加 一 个 新 的 值 。 如 果 把 新 增 的 
值 放 在 中 间 ， 例 如 PG-13 之 后 ， 则 会 导致 已 经 存在 的 数据 的 含义 被 改 
变 : 已 经 存在 的 R 值 将 变 成 PG-14， 而 已 经 存在 的 NC-17 将 成 为 R， 等 
等 


接 下 来 用 操作 系统 的 命令 交换 .frm 文 件 : 


/var/lib/mysql/sakila# mv film.frm film tmp.frm 
/var/lib/mysql/sakila# mv film new.frm film.frm 


/var/lib/mysql/sakila# mv film tmp.frm film_new.frm 


再 回 到 MySQL 命令 行 ， 现 在 可 以 解锁 表 并 且 看 到 变更 后 的 效果 


mysql> UNLOCK TABLES; 
mysql> SHOW COLUMNS FROM sakila.film LIKE 'rating'\G 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 1 row 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 


Field: rating 


Type: enum('G', 'PG', 'PG-13', 'R', 'NC-17', 'PG-14') 


最 后 需要 做 的 是 删除 为 完成 这 个 操作 而 创建 的 辅助 表 : 


mysql> DROP TABLE sakila.film_new; 


4.5.2 ”快速 创建 MyISAM 索 引 


为 了 高 效 地 载 入 数据 到 MyISAM 表 中 ， 有 一 个 单 用 的 技巧 是 先 茶 
用 索引 、 载 入 数据 ， 然 后 重新 启用 索引 : 


mysql> ALTER TABLE test.load_data ENABLE KEYS; 
- load the data 


mysql> ALTER TABLE test.load_data ENABLE KEYS; 


这 个 技巧 能 够 发 挥 作用 ， 是 因为 构建 索引 的 工作 被 延迟 到 数据 完 
全 载 入 以 后 ， 这 个 时 候 已 经 可 以 通过 排序 来 构建 索引 了 。 这 样 做 会 快 
很 多 ， 并 且 使 得 索引 树 (2 的 碎片 更 少 、 更 紧凑 。 


不 幸 的 是 ， 这 个 办 法 对 唯一 索引 无 效 ， 因 为 DISABLE KEYS 只 对 
非 唯一 索引 有 效 。MyISAM 会 在 内 存 中 构造 唯一 索引 ， 并 且 为 载 入 的 
每 一 行 检查 唯一 性 。 一 旦 索引 的 大 小 超过 了 有 效 内 存 大 小 ， 载 入 操作 


在 现代 版 本 的 InnoDB 版 本 中 ， 有 一 个 类 似 的 技巧 ， 这 依赖 于 
InnoDB 的 快速 在 线索 引 创 建功 能 。 这 个 技巧 是 ， 先 删除 所 有 的 非 唯一 
索引 ， 然 后 增加 新 的 列 ， 最 后 重新 创建 删除 掉 的 索引 。Percona Server 
可 以 自动 完成 这 些 操作 步骤 。 


也 可 以 使 用 像 前 面 说 的 ALTER TABLE 的 骇 客 方法 来 加 速 这 个 操 
作 ， 但 需要 多 做 一 些 工作 并 且 承 担 一 定 的 风险 。 这 对 从 备份 中 载 入 数 
据 是 很 有 用 的 ， 例 如 ， 当 已 经 知道 所 有 数据 都 是 有 效 的 并 且 没 有 必要 
做 唯一 性 检查 时 就 可 以 这 么 来 操作 。 


Kap BA, 这 是 没有 文档 说 明 并 且 不 受 官方 支持 的 技巧 。 若 使 用 的 话 ， 需 要 自 


己 承担 风险 ， 并 且 操 作 之 前 一 定 要 先 备份 数据 。 
下 面 是 操作 步骤 : 


1. 用 需要 的 表 结 构 创 建 一 张 表 ， 但 是 不 包括 索引 。 

2. 载 入 数据 到 表 中 以 构建 .MYD 文 件 。 

3. 按照 需要 的 结构 创建 另外 一 张 空 表 ， 这 次 要 包含 索引 。 这 会 创建 
需要 的 .frm 和 .MYI 文 件 。 

4. 获取 读 锁 并 刷新 表 。 

5. 重 命 名 第 二 张 表 的 .frm 和 .MYI 文 件 ， 让 MySQL 认 为 是 第 一 张 表 的 
文件 。 

6. 释放 读 锁 。 

7. 使 用 REPAIR TABLE 来 重建 表 的 索引 。 该 操作 会 通过 排序 来 构建 
所 有 索引 ， 包 括 唯一 索引 。 


这 个 操作 步骤 对 大 表 来 说 会 快 很 多 。 


4.6 ”总 结 


良好 的 schema 设 计 原 则 是 普遍 适用 的 ， 但 MySQL 有 它 自己 的 实现 
细节 要 注意 。 概 括 来 说 ， 尽 可 能 保持 任何 东西 小 而 简单 总 是 好 的 。 


MySQL 喜 欢 简单 ， 需 要 使 用 数据 库 的 人 应 该 也 同样 会 喜欢 简单 的 原 


则 : 


尽量 避免 过 度 设计 ， 例 如 会 导致 极其 复杂 查询 的 schema 设 计 ， 或 
者 有 很 多 列 的 表 设 计 (很 多 的 意思 是 介 于 有 点 多 和 非常 多 之 
间 ) o 

使 用 小 而 简单 的 合适 数据 类 型 ， 除 非 真实 数据 模型 中 有 确切 的 需 
要 ， 人 否则 应 该 尽 可 能 地 避免 使 用 NULL 值 。 

尽量 使 用 相同 的 数据 类 型 存储 相似 或 相关 的 值 ， 尤 其 是 要 在 关联 
条 件 中 使 用 的 列 。 

注意 可 变 长 字符 串 ， 其 在 临时 表 和 排序 时 可 能 导致 悲观 的 按 最 大 
长 度 分 配 内 存 。 

尽量 使 用 整 型 定义 标识 列 。 

避免 使 用 MySQL 已 经 遗弃 的 特性 ， 例 如 指定 浮 点 数 的 精度 ， 或 者 
整数 的 显示 宽度 。 

小 心 使 用 ENUM 和 SET。 虽 然 它 们 用 起 来 很 方便 ， 但 是 不 要 小 
用 ， 否 则 有 了 时候 会 变 成 陷阱 。 最 好 避免 使 用 BIT。 


范式 是 好 的 ， 但 是 反 范式 〈 大 多 数 情况 下 意味 着 重复 数据 ) 有 时 


也 是 必需 的 ， 并 且 能 带 来 好 处 。 第 5 章 我 们 将 看 到 更 多 的 例子 。 预 先 计 


= 


缓存 或 生成 汇总 表 也 可 能 获得 很 大 的 好 处 。Justin Swanhart AY 


Flexviews 工 具 可 以 帮助 维护 汇总 表 。 


Bylo, ALTER TABLE 是 让 人 痛苦 的 操作 ， 因 为 在 大 部 分 情况 下 ， 


它 都 会 锁 表 并 且 重 建 整 张 表 。 我 们 展示 了 一 些 特 殊 的 场景 可 以 使 用 驴 
客 方法 ; 但 是 对 大 部 分 场景 ， 必 须 使 用 其 他 更 单 规 的 方法 ， 例 如 在 备 
机 执行 ALITER 并 在 完成 后 把 它 切换 为 主 库 。 本 书后 续 章 节 会 有 更 多 天 
于 这 方面 的 内 容 。 


(1) 例如 只 需要 存 0~200，tinyint unsigned 更 好 。 译 者 注 
译 者 注 

(3) 如 果 定 义 表 结 构 时 没有 指定 列 为 NOT NULL， 默 认 都 是 允许 为 NULL 的 。 

(4) 很 多 值 为 NULL ， 只 有 少数 行 的 列 有 非 NULL 值 。 译 者 注 

(5) 记 住 字符 串 长 度 定义 不 是 字 节 数 ， 是 字符 数 。 多 字 节 字符 集会 需要 更 多 的 空间 存储 单 
个 字符 。 

(6) string3 尾 部 的 空格 还 在 。 译 者 注 

(Z) Percona Server 里 的 Memory 引 擎 支持 变 长 的 行 。 


(8) 如 果 需 要 在 检索 时 保持 值 不 变 ， 则 需要 特别 小 心 BINARY 类 型 ，MySQL 会 用 \0 将 其 填 
充 到 需要 的 长 度 。 

(9) 这 很 可 能 可 以 节省 IO。 译 者 注 

(10) TIMESTAMP 的 行为 规则 比较 复杂 ， 并 且 在 不 同 的 MySQL 版 本 里 会 变动 ， 所 以 你 应 
该 验证 数据 库 的 行为 是 你 需要 的 。 一 个 好 的 方式 是 修改 完 TIMESTAMP 列 后 用 SHOW CREATE 
TABLE 命 令 检 查 输 出 。 

(11) 如 果 使 用 的 是 InnoDB 存 储 引 擎 ， 将 不 能 在 数据 类 型 不 是 完全 匹配 的 情况 下 创建 外 
键 ， 否 则 会 有 报错 信息 : “ERROR 1005 (HY000) :Can't create table”， 这 个 信息 可 能 让 人 迷惑 
不 解 ， 这 个 问题 在 MySQL 邮 件 组 也 经 常 有 人 抱怨 (但 奇怪 的 是 ， 在 不 同 长 度 的 VARCHAR 列 
上 创建 外 键 又 是 可 以 的 ) 。 

(12) 这 是 关联 到 另 一 张 存储 名 字 的 表 的 ID。 译 者 注 

(13) 另 一 方面 ， 对 一 些 有 很 多 写 的 特别 大 的 表 ， 这 种 伪 随 机 值 实际 上 可 以 帮助 消除 热 


(2) date, time, datatime 


占 


AAAO 


(14) 全 表 扫 描 基 本 上 是 顺序 VO ， 但 也 不 是 100% 的 ， 跟 引擎 的 实现 有 关 。 译 者 注 

(15) 就 是 所 谓 的 “InnoDB plugin”, MySQL 5.5 和 更 新 版 本 中 唯一 的 mnoDB。 请 参考 第 1 章 
中 关于 InnoDB 发 布 历史 的 细节 。 

(16) ALTER TABLE 允许 使 用 ALTER COLUMN., MODIFY COLUMN 和 CHANGE 
COLUMN 语 句 修改 列 。 这 三 种 操作 都 是 不 一 样 的 。 

(17) 如 果 使 用 的 是 LOAD DATA FILE， 并 且 要 载 入 的 表 是 空 的 ，MyISAM 也 可 以 通过 排 
序 来 构造 索引 。 


第 5 章 ”创建 高 性 能 的 索引 


索引 (在 MySQL 中 也 叫做 “ 键 (key) ”) 是 存储 引 敬 用 于 快速 找 
到 记录 的 一 种 数据 结构 。 这 是 索引 的 基本 功能 ， 除 此 之 外 ， 本 章 还 将 
讨论 索引 其 他 一 些 方面 有 用 的 属性 。 


索引 对 于 良好 的 性 能 非常 关键 。 尤 其 是 当 表 中 的 数据 量 越 来 越 大 
时 ， 索 引 对 性 能 的 影响 傅 发 重要 。 在 数据 量 较 小 且 负 载 较 低 时 ， 不 恰 
当 的 索引 对 性 能 的 影响 可 能 还 不 明显 ， 但 当 数 气量 逐渐 增 大 时 ， 性 能 
MRZE TEOD, 


不 过 ， 索 引 却 经 常 被 忽略 ， 有 时 候 甚至 被 误解 ， 所 以 在 实际 案例 
中 经 单 会 遇 到 由 糟糕 索引 导致 的 问题 。 这 也 是 我 们 把 索引 优化 放 在 了 
靠 前 的 章节 ， 甚 至 比 查询 优化 还 靠 前 的 原因 。 


索引 优化 应 该 是 对 查询 性 能 优化 最 有 效 的 手段 了 。 索 引 能 够 轻易 
将 碍 询 性 能 提高 几 个 数量 级 , “最 优 ” 的 索引 有 时 比 一 个 “好 的 ”索引 性 
能 要 好 两 个 数量 级 。 创 建 一 个 真正 “最 优 ”的 索引 经 常 需要 重 写 查询 ， 
所 以 ， 本 章 和 下 一 章 的 关系 非常 紧密 。 


5.1 索引 基础 


要 理解 MySQL 中 索引 是 如 何 工 作 的 ， 最 简单 的 方法 就 是 去 看 看 一 
本 书 的 “索引 ”部 分 : 如 果 想 在 一 本 书 中 找到 某 个 特定 主题 ， 一 般 会 先 
看 书 的 “索引 ”， 找 到 对 应 的 页 码 。 


在 MySQL 中 ， 存 储 5 引擎 用 类 似 的 方法 使 用 之 5 引 ， 其 先 在 索引 中 找 
到 对 应 值 ， 然 后 根据 匹配 的 索引 记录 找到 对 应 的 数据 行 。 假 如 要 运行 
下 面 的 查询 : 


mysql> SELECT first name FROM sakila.actor WHERE 


actor_id=5; 


如 果 在 actor id 列 上 建 有 索引 ， 则 MySQL 将 使 用 该 索引 找到 
actor_ id 为 5 的 行 ， 也 就 是 说 ，MySQL 先 在 索引 上 按 值 进行 查找 ， 然 后 
返回 所 有 包含 该 值 的 数据 行 。 


索引 可 以 包含 一 个 或 多 个 列 的 值 。 如 果 索 引 包 含 多 个 列 ， 那 么 列 
的 顺序 也 十 分 重要 ， 因 为 MySQL 只 能 高 效 地 使 用 索引 的 最 左前 缀 列 。 
创建 一 个 包含 两 个 列 的 索引 ， 和 创建 两 个 只 包含 一 列 的 索引 是 大 不 相 
同 的 ， 下 面 将 详细 介绍 。 


如 果 使 用 的 是 ORM， 是 否 还 需要 关心 索引 ? 


简 而 言 之 : 是 的 ， 仍 然 需 要 理解 索引 ， 即 使 是 使 用 对 象 关 系 映 
射 (ORM) IR. 


ORM 工 具 能 够 生产 符合 逻辑 的 、 合 法 的 查询 (多 数 时 候 ) ， 除 
非 只 是 生成 非常 基本 的 查询 〈 例 如 仅 是 根据 主键 查询 ) ， 否 则 它 很 
难 生成 适合 索引 的 查询 。 无 论 是 多 么 复杂 的 ORM 工 具 ， 在 精妙 和 复 
杂 的 索引 面前 都 是 “浮云 ”。 读 完 本 章 后 面 的 内 容 以 后 ， 你 就 会 同意 


这 个 观点 的 ! 很 多 时 候 ， 即 使 是 查询 优化 技术 专家 也 很 难 兼顾 到 各 种 
情况 ， 更 别 说 ORM 了 。 


5.1.1 索引 的 类 型 


索 5| 有 很 多 种 类 型 ， 可 以 为 不 同 的 场景 提供 更 好 的 性 能 。 在 
MySQL 中 ， 索 引 是 在 存储 引擎 层 而 不 是 服务 器 层 实现 的 。 所 以 ， 并 没 
有 统一 的 索引 标准 : 不 同 存储 引擎 的 索引 的 工作 方式 并 不 一 样 ， 也 不 
是 所 有 的 存储 引擎 都 支持 所 有 类 型 的 索引 。 即 使 多 个 存储 引擎 广 持 同 
一 种 类 型 的 索引 ， 其 底层 的 实现 也 可 能 不 同 。 


下 面 我 们 先 来 看 看 MySQL 支 持 的 索引 类 型 ， 以 及 它们 的 优点 和 缺 
点 


JIWNO 


B-Tree#5| 


当 人 们 谈论 索引 的 时 候 ， 如 果 没 有 特别 指明 类 型 ， 那 多 半 说 的 是 
B-Tree 索 引 ， 它 使 用 B-Tree 数 据 结构 来 存储 数据 的 。 大 多 数 MySQL5 引 
擎 都 支持 这 种 索引 。Archive 引 擎 是 一 个 例外 : 5.1 之 前 Archive 不 支持 
任何 索引 ， 直 到 5.1 才 开始 支持 单个 自 增 列 (AUTO_INCREMENT) 的 
索引 。 


我 们 使 用 术语 “B-Tree”， 是 因为 MySQL 在 CREATE TABLE 和 其 他 
语句 中 也 使 用 该 关键 字 。 不 过 ， 底 层 的 存储 引擎 也 可 能 使 用 不 同 的 存 
储 结构 ， 例 如 ，NDB 集 群 存储 引擎 内 部 实际 上 使 用 了 T 工 Tree 结构 存储 


这 种 索引 ， 即 使 其 名 字 是 BTREE; InnoDB 则 使 用 的 是 Bt+Tree， 各 种 数 
据 结构 和 算法 的 变种 不 在 本 书 的 讨论 范围 之 内 。 


存储 引擎 以 不 同 的 方式 使 用 B-Tree 索 引 ， 人 性 能 也 各 有 不 同 ， 各 有 
优 劣 。 例 如 ，MyISAM 使 用 前 缀 压缩 技术 使 得 索引 更 小 ， 但 InnoDB 则 
按照 原 数 据 格式 进行 存储 。 再 如 MyISAM 索 引 通 过 数据 的 物理 位 置 引 
用 被 索引 的 行 ， 而 InnoDB 则 根据 主键 引用 被 索引 的 行 。 


B-Tree 通 单 意味 着 所 有 的 值 都 是 按 顺序 存储 的 ， 并 且 每 一 个 叶子 
页 到 根 的 距离 相同 。 图 5-1 展 示 了 B-Tree 索 引 的 抽象 表示 ， 大 致 反映 了 
InnoDB 索 引 是 如 何 工作 的 。MyISAM 使 用 的 结构 有 所 不 同 ， 但 基本 思 


想 是 类 似 的 。 


辆 | 页 中 的 慎 RABE 
口 指向 子 页 的 指针 节点 页 的 指针 
国 指向 下 一 个 叶子 页 的 指针 
a ks 
叶子 页 : 值 <hey1* % 
叶子 页 的 链接 
key! <= {ii < key2 ka 
指向 数据 的 指针 BE i \ 
( 悟 赖 于 不 同 存储 引擎 } “Vat | wn2 3 vam Y 
‘a 
t i 值 >=keyN 
le 
t 
|- 一 一 还 辑 页 ， 大 小 一 一 ~ 
依赖 于 不 同 的 存储 引擎 ， 
对 于 InnoDB 为 16K 


图 5-1: 建立 在 B-Tree 结 构 〈 从 技术 上 来 说 是 B+Tree) 上 的 索引 


B-Tree 索 引 能 够 加 快 访 问 数据 的 速度 ， 因 为 存储 引擎 不 再 需要 进 
行 全 表 扫 描 来 获取 需要 的 数据 ， 取 而 代 之 的 是 从 索引 的 根 节 点 (图 示 
HREH) 开始 进行 搜索 。 根 节点 的 槽 中 存放 了 指向 子 节点 的 指针 ， 


存储 引擎 根据 这 些 指针 向 下 层 查找 。 通 过 比较 节点 页 的 值 和 要 查找 的 
值 可 以 找到 合适 的 指针 进入 下 层 子 节点 ， 这 些 指针 实际 上 定义 了 子 节 
点 页 中 值 的 上 限 和 下 限 。 最 终 存 储 引 掌 要 么 是 找到 对 应 的 值 ， 要 么 该 
记录 不 存在 。 


叶子 节点 比较 特别 ， 它 们 的 指针 指向 的 是 被 索引 的 数据 ， 而 不 是 
其 他 的 节点 页 〈 不 同 引 警 的 “指针 ”类 型 不 同 ) 。 图 5-1 中 仅 绘 制 了 一 个 
节点 和 其 对 应 的 叶子 节点 ， 其 实在 根 节点 和 叶子 节点 之 间 可 能 有 很 多 
层 节 点 页 。 树 的 深度 和 表 的 大 小 直接 相关 。 


B-Tree 对 索引 列 是 顺序 组 织 存 储 的 ， 所 以 很 适合 查找 范围 数据 。 
例如 ， 在 一 个 基于 文本 域 的 索引 树 上 ， 按 字母 顺序 传递 连续 的 值 进行 
查找 是 非常 合适 的 ， 所 以 像 “ 找 出 所 有 以 I 到 K 开 头 的 名 字 ” 这 样 的 查找 


效率 会 非常 高 。 


假设 有 如 下 数据 表 : 


CREATE TABLE People ( 
last_name varchar(50) not null, 
first_name varchar(50) not null, 
dob date not null, 
gender enum('m', 'f') not null, 
key(last_name, first_name, dob) 


); 


对 于 表 中 的 每 一 行 数据 ， 索 引 中 包含 了 last_name、frst_name 和 
dob 列 的 值 ， 图 5-2 显 示 了 该 索引 是 如 何 组 织 数 据 的 存储 的 。 


Allen 
Cuba 
1960-01-01 


TO Akroyd Akroyd 
istia Debbie Kirsten 
1958-12-07 | 1990-03-18 1978-11-02 


Allen len Allen 
Cuba Kim Meryl 
1960-01-01 | 1930-07-12 1980-12-12 
p 
J 


ulia iven Vi 
2000-05-16 | 1976-12-08 1979-01-24 


Astaire Barrymore 
Angelina Julia 
1980-03-04 2000-05-16 


5-2: B-Tree (从 技术 上 来 说 是 B+Tree) 索引 树 中 的 部 分 条 目 示 例 


请 注意 ， 索 引 对 多 个 值 进 行 排序 的 依据 是 CREATE TABLE 语 句 中 
定义 索引 时 列 的 顺序 。 看 一 下 最 后 两 个 条 目 ， 两 个 人 的 姓 和 名 都 一 
样 ， 则 根据 他 们 的 出 生日 期 来 排列 顺序 。 


可 以 使 用 B-Tree 索 引 的 碍 询 类 型 。B-Tree 索 引 适 用 于 全 键 值 、 键 
值 沁 围 或 键 前 缀 查找 。 其 中 键 前 弘 查找 只 适用 于 根据 最 左前 缀 的 查找 
多 。 前 面 所 述 的 索引 对 如 下 类 型 的 查询 有 效 。 


全 值 匹 配 


全 值 匹 配 指 的 是 和 索引 中 的 所 有 列 进行 匹配 ， 例 如 前 面 提 到 
的 索引 可 用 于 查找 姓名 为 Cuba Allen、 出 生 于 1960-01-01 的 人 。 


匹配 最 左前 级 


前 面 提 到 的 索引 可 用 于 碍 找 所 有 姓 为 Allen 的 人 ， 即 只 使 用 索 
引 的 第 一 列 。 


匹配 列 前 级 


也 可 以 只 匹配 某 一 列 的 值 的 开头 部分。 例如 前 面 提 到 的 索引 
可 用 于 查找 所 有 以 J 开头 的 姓 的 人 。 这 里 也 只 使 用 了 索引 的 第 一 
列 。 


匹配 沁 围 值 


例如 前 面 提 到 的 索引 可 用 于 查找 姓 在 Allen 和 Barrymore 之 间 
的 人 。 这 里 也 只 使 用 了 索引 的 第 一 列 。 


精确 匹配 某 一 列 并 范围 匹配 另外 一 列 


前 面 提 到 的 索引 也 可 用 于 查找 所 有 姓 为 Allen， 并 且 名 字 是 字 
母 K 开 头 (比如 Kim、Karl 等 ) 的 人 。 即 第 一 让 ast_name 全 匹配 ， 
第 二 列 frst_name 范 围 匹 配 。 


只 访问 索引 的 查询 


B-Tree 通 剃 可 以 支持 “只 访问 索引 的 查询 *”， 即 查询 只 需要 访 
问 索 引 ， 而 无 须 访问 数据 行 。 后 面 我 们 将 单独 讨论 这 种 “ 宪 熏 索 
引 ” 的 优化 。 


因为 索引 树 中 的 节点 是 有 序 的 ， 所 以 除了 按 值 查找 之 外 ， 索 引 还 
可 以 用 于 查询 中 的 ORDER BY 操作 ( 按 顺 序 查找 ) 。 一 般 来 说 ， 如 果 
B-Tree 可 以 按照 某 种 方式 查找 到 值 ， 那 么 也 可 以 按照 这 种 方式 用 于 排 


序 。 


所 以 ， 如 果 ORDER BY 子 句 满足 前 面 列 出 的 几 种 查询 类 型 ， 则 这 


个 索引 也 可 以 满足 对 应 的 排序 需求 。 


要 : 


下 面 是 一 些 天 于 B-Tree 索 引 的 限制 |: 


如 果 不 是 按照 索引 的 最 左 列 开始 查找 ， 则 无 法 使 用 索引 。 例 如 上 
面 例子 中 的 索引 无 法 用 于 查找 名 字 为 Bill 的 人 ， 也 无 法 查找 某 个 特 
定 生日 的 人 ， 因 为 这 两 列 都 不 是 最 左 数据 列 。 类 似 地 ， 也 无 法 查 
找 姓氏 以 某 个 字母 结尾 的 人 。 

不 能 跳 过 索引 中 的 列 。 也 就 是 说 ， 前 面 所 述 的 索引 无 法 用 于 查找 
姓 为 Smith 并 且 在 某 个 特定 日 期 出 生 的 人 人。 如果 不 指定 名 
(first_name) ， 则 MySQL 只 能 使 用 索引 的 第 一 列 。 

如 果 查 询 中 有 某 个 列 的 范围 查询 ， 则 其 右边 所 有 列 都 无 法 使 用 索 
引 优 化 查找 。 例 如 有 查询 WHERE last_name='Smith' AND 
frst_name LIKE 'J%' AND dob='1976-12-23'， 这 个 查询 只 能 使 用 索 
引 的 前 两 列 ， 因 为 这 里 LIKE 是 一 个 范围 条 件 (但 是 服务 器 可 以 把 
其 余 列 用 于 其 他 目的 ) 。 如 果 范 围 查询 列 值 的 数量 有 限 ， 那 么 可 
以 通过 使 用 多 个 等 于 条 件 来 代替 范围 条 件 。 在 本 章 的 索引 案例 学 
习 部 分 ， 我 们 将 演示 一 个 详细 的 案例 。 


到 这 里 读者 应 该 可 以 明白 ， 前 面 提 到 的 索引 列 的 顺序 是 多 么 的 重 
这 些 限制 都 和 索引 列 的 顺序 有 关 。 在 优化 性 能 的 时 候 ， 可 能 需 


使 用 相同 的 列 但 顺序 不 同 的 索引 来 满足 不 同类 型 的 查询 需求 。 


也 有 些 限制 并 不 是 B-Tree 本 身 导 致 的 ， 而 是 MySQL 优 化 器 和 存储 


引擎 使 用 索引 的 方式 导致 的 ， 这 部 分 限制 在 未 来 的 版 本 中 可 能 就 不 再 
是 限制 了 。 


哈 希 索引 


哈 希 索引 (hash index) 基于 哈 希 表 实现 ， 只 有 精确 匹配 索引 所 有 
列 的 查询 才 有 效 由 。 对 于 每 一 行 数 据 ， 存 储 引 擎 都 会 对 所 有 的 索引 列 
计算 一 个 哈 希 码 (hash code) ， 哈 希 码 是 一 个 较 小 的 值 ， 并 且 不 同 键 
值 的 行 计算 出 来 的 哈 希 码 也 不 一 样 。 哈 希 索 引 将 所 有 的 哈 希 码 存 储 在 
索引 中 ， 同 时 在 哈 希 表 中 保存 指向 每 个 数据 行 的 指针 。 


在 MySQL 中 ， 只 有 Memory 引 擎 显 式 支持 哈 希 索引 。 这 也 是 
Memory5 引 警 表 的 默认 索引 类 型 ，Memory 引 擎 同时 也 支持 B-Tree 索 
引 。 值 得 一 提 的 是 ，Memory 引 | 擎 是 支持 非 唯 一 哈 希 索引 的 ， 这 在 数据 
库 世界 里 面 是 比较 与 众 不 同 的 。 如 果 多 个 列 的 哈 希 值 相同 ， 索 引 会 以 
链表 的 方式 存放 多 个 记录 指针 到 同一 个 哈 希 条 目 中 。 


下 面 来 看 一 个 例子 。 假 设 有 如 下 表 : 


CREATE TABLE testhash ( 
fname VARCHAR(50) NOT NULL, 
lname VARCHAR(50) NOT NULL, 
KEY USING HASH(fname) 

) ENGINE=MEMORY; 


表 中 包含 如 下 数据 : 


mysql> SELECT * FROM testhash; 
+-------- +----------- 十 
| fname | lname | 
+-------- +----------- 一 
| Arjen | Lentz | 
| Baron | Schwartz | 
| Peter | Zaitsev | 
| Vadim | Tkachenko | 
+-------- +----------- + 


假设 索引 使 用 假想 的 哈 希 函数 f0， 它 返回 下 面 的 值 (都 是 示例 数 
据 ， 非 真实 数据 ) : 


f('Arjen' )= 2323 
f('Baron')= 7437 
f('Peter')= 8784 


f('Vadim')= 2458 


则 哈 希 索引 的 数据 结构 如 下 : 


# (Slot) 值 (Value) 


注意 每 个 槽 的 编号 是 顺序 的 ， 但 是 数据 行 不 是 。 现 在 ， 来 看 如 下 


查询 : 


mysql> SELECT lname FROM testhash WHERE fname='Peter'; 


MySQL 先 计算 'Peter 的 哈 希 值 ， 并 使 用 该 值 寻找 对 应 的 记录 指 
针 。 因 为 f{ (Peter) =8784， 所 以 MySQL 在 索引 中 查找 8784， 可 以 找 
到 指向 第 3 行 的 指针 ， 最 后 一 步 是 比较 第 三 行 的 值 是 否 为 Peter ， 以 确 
保 就 是 要 查找 的 行 。 


因为 索引 自身 只 需 存 储 对 应 的 哈 希 值 ， 所 以 索引 的 结构 十 分 紧 
凑 ， 这 也 让 哈 希 索引 查找 的 速度 非常 快 。 然 而 ， 哈 希 索 引 也 有 它 的 限 
$l: 


哈 希 索引 只 包含 哈 希 值 和 行 指 针 ， 而 不 存储 字段 值 ， 所 以 不 能 使 
用 索引 中 的 值 来 避免 读 取 行 。 不 过 ， 访 问 内 存 中 的 行 的 速度 很 
快 ， 所 以 大 部 分 情况 下 这 一 点 对 性 能 的 影响 并 不 明显 。 

哈 希 索引 数据 并 不 是 按照 索引 值 顺 序 存储 的 ， 所 以 也 就 无 法 用 于 
排序 。 

哈 希 索引 也 不 支持 部 分 索引 列 匹 配 查 找 ， 因 为 哈 希 索引 始终 是 使 
用 索引 列 的 全 部 内 容 来 计算 哈 希 值 的 。 例 如 ， 在 数据 列 (A,B) 
上 建立 哈 希 索引 ， 如 果 查 询 只 有 数据 列 A， 则 无 法 使 用 该 索引 。 
哈 希 索引 只 支持 等 值 比较 查询 ， 包 括 =、IN()、<=> (注意 <> 和 
<=> 是 不 同 的 操作 ) 。 也 不 支持 任何 范围 查询 ， 例 如 WHERE 
price>100。 

访问 哈 希 索引 的 数据 非常 快 ， 除 非 有 很 多 哈 希 冲突 (不 同 的 索引 
列 值 却 有 相同 的 哈 希 值 ) 。 当 出 现 哈 希 冲突 的 时 候 ， 存 储 引 擎 必 
须 遍 历 链表 中 所 有 的 行 指 针 ， 了 逐 行进 行 比较 ， 直 到 找到 所 有 符合 
条 件 的 行 。 


。 如 果 哈 希 冲 突 很 多 的 话 ， 一 些 索引 维护 操作 的 代价 也 会 很 高 。 例 
如 ， 如 果 在 某 个 选择 性 很 低 〈 哈 希 冲 突 很 多 ) 的 列 上 建立 哈 希 索 
引 ， 那 么 当 从 表 中 删除 一 行 时 ， 存 储 引 警 需要 遍历 对 应 哈 希 值 的 
链表 中 的 每 一 行 ， 找 到 并 删除 对 应 行 的 引用 ， 冲 突 越 多 ， 代 价 越 
大 。 


因为 这 些 限制 ， 哈 希 索 引 只 适用 于 某 些 特定 的 场合 。 而 一 旦 适合 
哈 希 索引 ， 则 它 带 来 的 性 能 提升 将 非常 显著 。 举 个 例子 ， 在 数据 仓库 
应 用 中 有 一 种 经 典 的 “ 星 型 "schema， 需 要 关联 很 多 查找 表 ， 哈 希 索 引 
束 非 党 适合 查找 表 的 需求 。 


除了 Memory 引 擎 外 ，NDB 集 群 引 擎 也 支持 唯一 哈 希 索引 ， 且 在 
NDB 集 群 引擎 中 作用 非常 特殊 ， 但 这 不 属于 本 书 的 范围 。 


InnoDB 引 擎 有 一 个 特殊 的 功能 叫做 * 自 适应 哈 希 索引 (adaptive 
hash index) ”。 当 InnoDB 注 意 到 某 些 索引 值 被 使 用 得 非常 频繁 时 ， 它 
会 在 内 存 中 基于 B-Tree 索 引 之 上 再 创建 一 个 哈 希 索引 ， 这 样 就 让 B- 
Tree 索引 也 具有 哈 希 索引 的 一 些 优点 ， 比 如 快速 的 哈 希 查找 。 这 是 一 
个 完全 自动 的 、 内 部 的 行为 ， 用 户 无 法 控制 或 者 配置 ， 不 过 如 果 有 必 
要 ， 完 全 可 以 关闭 该 功能 。 


创建 自 定 义 哈 希 索引 。 如 果 存 储 引 擎 不 支持 哈 希 索引 ， 则 可 以 模 
拟 像 InnoDB 一 样 创建 哈 希 索引 ， 这 可 以 享受 一 些 哈 希 索引 的 便利 ， 例 
如 只 需要 很 小 的 论 引 就 可 以 为 超 长 的 键 创建 这 引 。 


思路 很 简单 : 在 B-Tree 基 础 上 创建 一 个 伪 哈 希 索 引 。 这 和 真正 的 
哈 希 索引 不 是 一 回 事 ， 因 为 还 是 使 用 B-Tree 进 行 查 找 ， 但 是 它 使 用 哈 


希 值 而 不 是 键 本 身 进 行 索 5 引 碍 找 。 你 需要 做 的 融 是 在 查询 的 WHERE 
子 句 中 手动 指定 使 用 哈 希 函数 。 


下 面 是 一 个 实例 ， 例 如 需要 存储 大 量 的 URL， 并 需要 根据 URL 进 
行 搜 索 查找 。 如 果 使 用 B-Tree 来 存储 URL， 存 储 的 内 容 就 会 很 大 ， 
为 URL 本 身 都 很 长 。 正 常情 况 下 会 有 如 下 查询 : 


mysql> SELECT id FROM url WHERE url="http://www.mysql.com"; 


若 删 除 原 来 URL 列 上 的 索引 ， 而 新 增 一 个 被 索引 的 url_crc 列 ， 使 
用 CRC32 做 哈 硕 ， 融 可 以 使 用 下 面 的 方式 查询 : 


mysql> SELECT id FROM url WHERE url="http://www.mysql.com" 


-> AND url_crc=CRC32("http://www.mysql.com") ; 


这 样 做 的 性 能 会 非常 高 ， 因 为 MySQL 优 化 器 会 使 用 这 个 选择 性 很 
高 而 体积 很 小 的 基于 url_crc 列 的 索引 来 完成 查找 (在 上 面 的 案例 中 ， 
索引 值 为 1560514994) 。 即 使 有 多 个 记录 有 相同 的 索引 值 ， 查 找 仍然 
很 快 ， 只 需要 根据 哈 希 值 做 快速 的 整数 比较 就 能 找到 索引 条 目 ， 然 后 
一 一 比较 返回 对 应 的 行 。 另 外 一 种 方式 就 是 对 完整 的 URL 字 符 串 做 索 
引 ， 那 样 会 非常 慢 。 


这 样 实现 的 缺陷 是 需要 维护 哈 希 值 。 可 以 手动 维护 ， 也 可 以 使 用 
触发 器 实现 。 下 面 的 案例 演示 了 触发 器 如 何在 插入 和 更 新 时 维护 
url_crc 列 。 前 先 创建 如 下 表 : 


CREATE TABLE pseudohash ( 
id int unsigned NOT NULL auto_increment, 
url varchar(255) NOT NULL, 
url_cre int unsigned NOT NULL DEFAULT 0, 


PRIMARY KEY(id) 
); 


然后 创建 触发 器 。 先 临时 修改 一 下 语句 分 隔 符 ， 这 样 就 可 以 在 触 
发 器 定义 中 使 用 分 号 : 


DELIMITER // 


CREATE TRIGGER pseudohash_crc_ins BEFORE INSERT ON 
pseudohash FOR EACH ROW BEGIN 
SET NEW.url_crc=crc32(NEW.url); 
END; 
// 


CREATE TRIGGER pseudohash_crc_upd BEFORE UPDATE ON 
pseudohash FOR EACH ROW BEGIN 
SET NEW.url_crc=crc32(NEW.url); 
END; 
// 


DELIMITER ; 


剩 下 的 工作 就 是 验证 一 下 触发 器 如 何 维护 哈 希 索引 : 


mysql> INSERT INTO pseudohash (url) VALUES (‘http://www.mysql.com'); 
pa SELECT * FROM i 


el UPDATE pseudohash SET ee "http: Fan mysql.com/' WHERE id=1; 
pop SELECT * FROM pseudohash; 


如 果 采 用 这 种 方式 ， 记 住 不 要 使 用 SHA10 和 MD50 作 为 哈 希 了 
数 。 因 为 这 两 个 国 数 计算 出 来 的 哈 希 值 是 非常 长 的 字符 串 ， 会 浪费 大 
= 比较 时 也 会 更 慢 。SHA10 和 MD50 是 强加 密 函 数 ， 设 计 目 标 

最 大 限度 消除 冲突 ， 但 这 里 并 不 需要 这 样 高 的 要 求 。 简 单 哈 希 函数 
= 在 一 个 可 以 接受 的 范围 ， 同 时 又 能 够 提供 更 好 的 性 能 。 


如 果 数 据 表 非 常 大 ，CRC320 会 出 现 大 量 的 哈 希 冲突 ， 则 可 以 考 
ee 个 简单 的 64 位 哈 希 国 数 。 这 个 自 定 义 函 数 要 返回 整数 ， 
一 个 简单 的 办 法 可 以 使 用 MD50 函 数 返回 值 的 一 部 分 
so eee 数 。 这 可 能 比 自 己 写 一 个 哈 希 算法 的 性 能 要 差 
(参考 第 7 章 ) ， 不 过 这 样 实 现 最 简单 : 


a SELECT oink saa http://www.mysql.com/'), 16), 16, 10) AS HASH64; 


处 理 哈 希 冲突 。 当 使 用 哈 希 索引 进行 查询 的 时 候 ， 必 须 在 
WHERE 子 句 中 包含 常量 值 


mysql> SELECT id FROM url WHERE 
url_crc=CRC32("http://www.mysql.com" ) 


-> AND url="http://www.mysgql.com"; 


-BHWBAHR, FA-TFREHRABUWEAGE 
1560514994， 则 下 面 的 查询 是 无 法 正确 工作 的 。 


mysql> SELECT id FROM url WHERE 
url_crc=CRC32("http://www.mysql.com") ; 


因为 所 谓 的 “生日 悖 论 ”3， 出 现 哈 希 冲突 的 概率 的 增长 速度 可 能 
比 想象 的 要 快 得 多 。CRC320 返 回 的 是 32 位 的 整数 ， 当 索引 有 93000 条 
记录 时 出 现 冲 突 的 概率 是 1%。 例 如 我 们 将 /usr/share/dict/words 中 的 词 
导入 数据 表 并 进行 CRC32() 计 算 ， 最 后 会 有 98 569 行 。 这 就 已 经 出 现 一 
次 哈 希 冲突 了 ， 冲 突 让 下 面 的 查询 返回 了 多 条 记录 : 


mysql> SELECT word, crc FROM words WHERE crc = CRC32('gnu'); 
$ 


--------- +------------+ 
| word | ‘exe | 
+--------- +------------ + 
| codding | 1774765869 

| gnu | 1774765869 | 
+--------- +------------ + 


正确 的 写法 应 该 如 下 : 


mysql> SELECT word, crc FROM words WHERE crc = CRC32('gnu')AND word = 'gnu'; 
+------ +------------ + 
| word | crc | 
+------ +------------ + 
| gnu | 1774765869 | 
+------ +------------ + 


要 避免 冲突 问题 ， 必 须 在 WHERE 条 件 中 带 入 哈 希 值 和 对 应 列 
值 。 如 果 不 是 想 查 询 具 体 值 ， 例 如 只 是 统计 记录 数 (不 精确 的 ) ， 则 
可 以 不 带 入 列 值 ， 直 接 使 用 CRC320 的 哈 希 值 查询 即 可 。 还 可 以 使 用 
如 FNV64() 遂 数 作为 哈 希 遂 数 ， 这 是 移植 自 Percona Server 的 函数 ， 可 
以 以 插件 的 方式 在 任何 MySQL 版 本 中 使 用 ， 哈 希 值 为 64 位 ， 速 度 快 ， 
且 冲 突 比 CRC320 要 少 很 多 。 


空间 数据 索引 (R-Tree) 


MyISAM 表 支持 空间 索引 ， 可 以 用 作 地 理 数 据 存 储 。 和 B-Tree 索 
引 不 同 ， 这 类 索引 无 须 前 缀 查询 。 空 间 索 引 会 从 所 有 维度 来 索引 数 
据 。 查 询 时 ， 可 以 有 效 地 使 用 任意 维度 来 组 合 查询 。 必 须 使 用 MySQL 
的 GIS 相 关 函 数 如 MBRCONTAINS0 等 来 维护 数据 。MySQL 的 GIS 支 持 
并 不 完善 ， 所 以 大 部 分 人 都 不 会 使 用 这 个 特性 。 开 源 关 系数 据 库 系 统 
中 对 GIS 的 解决 方案 做 得 比较 好 的 是 PostgreSQL 的 PostGIS。 


全 文 索引 


全 文 索引 是 一 种 特殊 类 型 的 索引 ， 它 查找 的 是 文本 中 的 关键 词 ， 
而 不 是 直接 比较 索引 中 的 值 。 全 文 搜索 和 其 他 几 类 索引 的 匹配 方式 完 
全 不 一 样 。 它 有 许多 需要 注意 的 细节 ， 如 停 用 词 、 词 干 和 复数 、 布 尔 
搜索 等 。 全 文 索引 更 类 似 于 搜索 引擎 做 的 事情 ， 而 不 是 简单 的 
WHERE 条 件 匹 配 。 


在 相同 的 列 上 同时 创建 全 文 索引 和 基于 值 的 B-Tree 索 引 不 会 有 冲 
突 ， 全 文 索引 适用 于 MATCH AGAINST 操 作 ， 而 不 是 普通 的 WHERE 


条 件 操作 。 
我 们 将 在 第 7 章 讨论 更 多 的 全 文 索 引 的 细节 。 


其 他 索引 类 别 


还 有 很 多 第 三 方 的 存储 引擎 使 用 不 同类 型 的 数据 结构 来 存储 索 
引 。 例 如 TokuDB 使 用 分 形 树 索引 (fractal tree index) ， 这 是 一 类 较 新 
开发 的 数据 结构 ， 既 有 B-Tree 的 很 多 优点 ， 也 避免 了 B-Tree 的 一 些 缺 
点 。 如 果 通 读 完 本 章 ， 可 以 看 到 很 多 关于 InnoDB 的 主题 ， 包 括 聚 族 索 
引 、 有 覆盖 索引 等 。 多 数 情况 下 ， 针 对 InnoDB 的 讨论 也 都 适用 于 
TokuDB。 


ScaleDB 使 用 Patricia tries (这 个 词 不 是 拼写 错误 ) ， 其 他 一 些 存 
储 引擎 技术 如 InfiniDB 和 Infobright 则 使 用 了 一 些 特殊 的 数据 结构 来 优 
化 某 些 特殊 的 查询 。 


5.2 ”索引 的 优点 


索引 可 以 让 服务 器 快速 地 定位 到 表 的 指定 位 置 。 但 是 这 并 不 是 索 
引 的 唯一 作用 ， 到 目前 为 止 可 以 看 到 ， 根 据 创 建 索引 的 数据 结构 不 
同 ， 索 引 也 有 一 些 其 他 的 附加 作用 。 


最 常见 的 B-Tree 索 引 ， 按 照 顺 序 存 储 数 据 ， 所 以 MySQL 可 以 用 来 
做 ORDER BY 和 GROUP BY 操作 。 因 为 数据 是 有 序 的 ， 所 以 B-Tree 也 
就 会 将 相关 的 列 值 都 存储 在 一 起 。 最 后 ， 因 为 索引 中 存储 了 实际 的 列 


值 ， 所 以 某 些 查询 只 使 用 索引 就 能 够 完成 全 部 碍 询 。 据 此 特性 ， 总 结 
下 来 这 引 有 如 下 三 个 优点 : 


1. 索引 大 大 减少 了 服务 器 需要 扫描 的 数据 量 。 
2. 索引 可 以 帮助 服务 器 避免 排序 和 临时 表 。 
3. 索引 可 以 将 随机 VO 变 为 顺序 W/O。 


“索引 ”这 个 主题 完全 值得 单独 写 一 本 书 ， 如 果 想 深入 理解 这 部 分 
内 容 ， 强 烈 建议 阅读 由 Tapio Lahdenmaki 和 Mike Leach 编 写 的 Relational 
Database Index Design and the Optimizers (Wiley 出 版 社 ) 一 书 ， 该 书 
详细 介绍 了 如 何 计 算 索 引 的 成 本 和 作用 、 如 何 评估 查询 速度 、 如 何 分 
析 索 引 维护 的 代价 和 其 带 来 的 好 处 等 。 


Lahdenmaki 和 Leach 在 书 中 介绍 了 如 何 评 价 一 个 索引 是 否 适合 某 个 
查询 的 “三 星系 统 ”(three-star system) : 索引 将 相关 的 记录 放 到 一 起 
则 获得 一 星 ; 如 果 索 引 中 的 数据 顺序 和 查找 中 的 排列 顺序 一 致 则 获得 
二 星 ; 如 果 索 引 中 的 列 包 含 了 查询 中 需要 的 全 部 列 则 获得 “三 星 ”。 后 
面 我 们 将 会 介绍 这 些 原 则 。 


索引 是 最 好 的 解决 方案 吗 ? 


索引 并 不 总 是 最 好 的 工具 。 总 的 来 说 ， 只 有 当 索 引 帮 助 存 储 5| 
SRR SIC HRN UAT RRA F, ASIA 
有 效 的 。 对 于 非常 小 的 表 ， 大 部 分 情况 下 简单 的 全 表 扫 描 更 高 效 。 
对 于 中 到 大 型 的 表 ， 索 引 就 非常 有 效 。 但 对 于 特大 型 的 表 ， 建 立 和 
使 用 索引 的 代价 将 随 之 增长 。 这 种 情况 下 ， 则 需要 一 种 技术 可 以 直 


接 区 分 出 查询 需要 的 一 组 数据 ， 而 不 是 一 条 记录 一 条 记录 地 [匹配 。 
例如 可 以 使 用 分 区 技术 ， 请 参考 第 7 章 。 


如 果 表 的 数量 特别 多 ， 可 以 建立 一 个 元 数据 信息 表 ， 用 来 查询 
需要 用 到 的 某 些 特性 。 例 如 执行 那些 需要 聚合 多 个 应 用 分 布 在 多 个 
表 的 数据 的 查询 ， 则 需要 记录 “哪个 用 户 的 信息 存储 在 哪个 表 中 ”的 
元 数据 ， 这 样 在 查询 时 就 可 以 直接 忽略 那些 不 包含 指定 用 户 信 息 的 
表 。 对 于 大 型 系统 ， 这 是 一 个 常用 的 技巧 。 事 实 上 ，Infobright 就 是 
使 用 类 似 的 实现 。 对 于 TB 级 别 的 数据 ， 定 位 单条 记录 的 意义 不 大 ， 
所 以 经 单 会 使 用 块 级 别 元 效 据 技 术 来 蔡 代 索引 。 


5.3 ”高 性 能 的 索引 策略 


正确 地 创建 和 使 用 索引 是 实现 高 性 能 查询 的 基础 。 前 面 已 经 介绍 
了 各 种 类 型 的 索引 及 其 对 应 的 优 缺 点 。 现 在 我 们 一 起 来 看 看 如 何 真正 
地 发 挥 这 些 索引 的 优势 。 


高 效 地 选择 和 使 用 索引 有 很 多 种 方式 ， 其 中 有 些 是 针对 特殊 案例 
的 优化 方法 ， 有 些 则 是 针对 特定 行为 的 优化 。 使 用 哪个 索引 ， 以 及 如 
何 评估 选择 不 同 索 引 的 性 能 影响 的 技巧 ， 则 需要 持续 不 断 地 学 习 。 接 
下 来 的 几 个 小 节 将 帮助 读者 理解 如 何 高 效 地 使 用 索引 。 


5.3.1 ”独立 的 列 


我 们 通 单 会 看 到 一 些 碍 询 不 当地 使 用 索引 ， 或 者 使 得 MySQL 无 法 
使 用 已 有 的 索引 。 如 果 碍 询 中 的 列 不 是 独立 的 ， 则 MySQL 融 不 会 使 用 
索引 。“ 独 立 的 列 ” 是 指 索引 列 不 能 是 表达 式 的 一 部 分 ， 也 不 能 是 函 效 
的 参数 。 


例如 ， 下 面 这 个 查询 无 法 使 用 actor_id 列 的 索引 : 


mysql> SELECT actor_id FROM sakila.actor WHERE actor id + 1 


lI 
ol 


赁 肉眼 很 容易 看 出 WHERE 中 的 表达 式 其 实 等 价 于 actor_ id=4， 但 
是 MySQL 无 法 自动 解析 这 个 方程 式 。 这 完全 是 用 户 行 为 。 我 们 应 该 养 
成 简化 WHERE 条 件 的 习惯 ， 始 终 将 索引 列 单 独 放 在 比较 符号 的 一 
侧 。 


mysql> SELECT ... WHERE TO_DAYS(CURRENT_DATE) 


TO_DAYS(date_col) <= 10; 


5.3.2 ”前 缀 索引 和 索引 选择 性 


有 时 候 需 要 索引 很 长 的 字符 列 ， 这 会 让 索引 变 得 大 且慢 。 一 个 策 
略 是 前 面 提 到 过 的 模拟 险 希 索引 。 但 有 时 候 这 样 做 还 不 够 ,还 可 以 做 
些 什么 呢 ? 


通常 可 以 索引 开始 的 部 分 字符 ， 这 样 可 以 大 大 节约 索引 空间 ， 从 
而 提高 索引 效率 。 但 这 样 也 会 降低 索引 的 选择 性 。 索 引 的 选择 性 是 
指 ， 不 重复 的 索引 值 〈 也 称 为 基数 ，cardinality) 和 数据 表 的 记录 总 数 
(#T) 的 比值 ， 范 围 从 1/#T 到 1 之 间 。 索 引 的 选择 性 越 高 则 查询 效率 越 
高 ， 因 为 选择 性 高 的 索引 可 以 让 MySQL 在 查找 时 过 滤 掉 更 多 的 行 。 唯 
一 索引 的 选择 性 是 1， 这 是 最 好 的 索引 选择 性 ， 性 能 也 是 最 好 的 。 


一 般 情 况 下 某 个 列 前 缀 的 选择 性 也 是 足够 高 的 ， 足 以 满足 查询 性 
能 。 对 于 BLOB、TEXT 或 者 很 长 的 VARCHAR 类 型 的 列 ， 必 须 使 用 前 
级 索引 ， 因 为 MySQL 不 允许 索引 这 些 列 的 完整 长 度 。 


诀 罕 在 于 要 选择 足够 长 的 前 缀 以 保证 较 高 的 选择 性 ， 同 时 又 不 能 
ATS (以便 节约 空间 ) 。 前 缀 应 该 足够 长 ， 以 使 得 前 缀 索引 的 选择 性 
接近 于 索引 整个 列 。 换 句 话说， 前 缀 的 “基数 ”应 该 接近 于 完整 列 的 “ 基 


数 ”。 


为 了 决定 前 缀 的 合适 长 度 ， 需 要 找到 最 常见 的 值 的 列表 ， 然 后 和 
最 常见 的 前 缀 列表 进行 比较 。 在 示例 数据 库 Sakila 中 并 没有 合适 的 例 
子 ， 所 以 我 们 从 表 city 中 生成 一 个 示例 表 ， 这 样 就 有 足够 的 数据 进行 演 
示 : 


CREATE TABLE sakila.city demo(city VARCHAR(50) NOT NULL); 
INSERT INTO sakila.city demo(city) SELECT city FROM 
sakila.city; 
- Repeat the next statement five times: 
city_demo; 


Now randomize the distribution (inefficiently but 


conveniently): 
UPDATE sakila.city_demo 
SET city = (SELECT city FROM sakila.city ORDER BY RAND() 
LIMIT 1); 


现在 我 们 有 了 示例 数据 集 。 数 据 分 布 当然 不 是 真实 的 分 布 ; 因为 
我 们 使 用 了 RAND()， 所 以 你 的 结果 会 与 此 不 同 ， 但 对 这 个 练习 来 说 这 
并 不 重要 。 首 先 ， 我们 找到 最 常见 的 城市 列表 : 


mysql> SELECT COUNT(*) AS cnt, city 
-> FROM sakila.city_demo GROUP BY city ORDER BY cnt DESC LIMIT 10; 
+----- +---------------- 十 
| cnt | city 
+----- +---------------- 
65 | London 
49 | Hiroshima 
48 | Teboksary 


$ 


| | 
| | 
| | 
| 48 | Pak Kret | 
| 48 | Yaound | 
| 47 | Tel Aviv-Jaffa 

| 47 | Shimoga | 
| 45 | Cabuyao | 
| 45 | Callao | 
| 45 | Bislig | 
+----- +---------------- 十 


注意 到 ， 上 面 每 个 值 都 出 现 了 45 信 65 次。 现在 查找 到 最 频繁 出 现 
的 城市 前 缀 ， 先 从 3 个 前 缀 字母 开始 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 3) AS pref 
-> FROM sakila.city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 


+----- +------ + 
| cnt | pref 
+----- +------ + 
| 483 | San 

| 195 | Cha 

| 177 | Tan 

| 167 | Sou 

| 163 | al 

| 163 | Sal 

| 146 | Shi 

| 136 | Hal 

| 130 | Val 

| 129 | Bat 


每 个 前 缀 都 比 原 来 的 城市 出 现 的 次 数 更 多 ， 因 此 唯一 前 缀 比 唯一 
城市 要 少 得 多 。 然 后 我 们 增加 前 缀 长 度 ， 直 到 这 个 前 缀 的 选择 性 接近 
完整 列 的 选择 性 。 经 过 实验 后 发 现 前 缀 长 度 为 7 时 比较 合适 : 

mysql> SELECT COUNT(*) AS cnt, LEFT(city, 7) AS pref 


-> FROM sakila.city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 10; 
+----- +--------- + 


cnt | pref | 
+----- +--------- 十 
70 | Santiag | 
68 | San Fel 
65 | London | 
61 | Valle d | 
49 | Hiroshi | 
48 | Teboksa | 
48 | Pak Kre 
48 | Yaound | 
47 | Tel Avi | 


计算 合适 的 前 缀 长 度 的 另外 一 个 办 法 就 是 计算 完整 列 的 选择 性 ， 
并 使 前 缀 的 选择 性 接近 于 完整 列 的 选择 性 。 下 面 显 示 如 何 计算 完整 列 
的 选择 性 : 


| | 
+------------------------------- + 
| 0.0312 | 


通常 来 说 (尽管 也 有 例外 情况 ) ， 这 个 例子 中 如 果 前 缀 的 选择 性 
能 够 接近 0.031， 基 本 上 融 可 用 了 。 可 以 在 一 个 查询 中 针对 不 同 前 缀 长 
度 进 行 计算 ， 这 对 于 大 表 非 党 有 用 。 下 面 给 出 了 如 何在 同一 个 查询 中 
计算 不 同 前 弘 长 度 的 选择 性 : 


mysql> SELECT COUNT(DISTINCT LEFT(city, 3))/COUNT(*) AS sel3, 
->  COUNT(DISTINCT LEFT(city, 4))/COUNT(*) AS sel4, 
->  COUNT(DISTINCT LEFT(city, 5))/COUNT(*) AS sels, 
->  COUNT(DISTINCT LEFT(city, 6))/COUNT(*) AS sel6, 
->  COUNT(DISTINCT LEFT(city, 7))/COUNT(*) AS sel7 
-> FROM sakila.city_demo; 
十 十 


i Oe ss + 
| sel3 | sel4 | sel5 | sel6 | sel7 | 
各 ee Poneman 二 二 = + 
| 0.0239 | 0.0293 | 0.0305 | 0.0309 | 0.0310 | 
忆 i Bn i i + 


查询 显示 当前 级 长度 到 达 7 的 时 候 ， 再 增加 前 绎 长度， 选择 性 提升 
的 幅度 已 经 很 小 了 。 


只 看 平均 选择 性 是 不 够 的 ， 也 有 例外 的 情况 ， 需 要 考虑 最 坏 情 
下 的 选择 性 。 平 均 选择 性 会 让 你 认为 前 缀 长 度 为 4 或 者 5 的 索引 已 经 足 
够 了 ， 但 如 果 数 据 分 布 很 不 均匀 ， 可 能 就 会 有 陷阱 。 如 果 观 察 前 缀 为 4 
的 最 单 出 现 城市 的 次 数 ， 可 以 看 到 明显 不 均匀 : 


mysql> SELECT COUNT(*) AS cnt, LEFT(city, 4) AS pref 
-> FROM sakila.city_demo GROUP BY pref ORDER BY cnt DESC LIMIT 5; 
+----- +------ 十 
| cnt | pref | 
+----- +------ 十 
| 205 | San | 
| 200 | Sant | 
| 135 | Sout | 
| 104 | Chan | 
| 91 | Toul | 
+----- +------ + 


如 果 前 缀 是 4 个 字 节 ， 则 最 常 出 现 的 前 缀 的 出 现 次 数 比 最 常 出 现 的 
城市 的 出 现 次 数 要 大 很 多 。 即 这 些 值 的 选择 性 比 平均 选择 性 要 低 。 如 
果 有 比 这 个 随机 生成 的 示例 更 真实 的 数据 ， 就 更 有 可 能 看 到 这 种 现 
象 。 例 如 在 真实 的 城市 名 上 建 一 个 长 度 为 4 的 前 绎 索引 ， 对 于 以 “San” 
和 “New” 开 头 的 城市 的 选择 性 就 会 非常 粮 焙 ， 因 为 很 多 城市 都 以 这 两 
个 词 开头 。 


在 上 面 的 示例 中 ， 已 经 找到 了 合适 的 前 缀 长 度 ， 下 面 演 示 一 下 如 
何 创建 前 缀 索引 : 


mysql> ALTER TABLE sakila.city_demo ADD KEY (city(7)); 


前 缀 索引 是 一 种 能 使 索引 更 小 、 更 快 的 有 效 办 法 ， 但 另 一 方面 也 
有 其 缺点 : MySQL 无 法 使 用 前 缀 索引 做 ORDER BY 和 GROUP BY, 也 
无 法 使 用 前 缀 索引 做 覆盖 扫描 。 


一 个 常见 的 场景 是 针对 很 长 的 十 六 进 制 唯一 ID 使 用 前 缀 索引 。 在 
前 面 的 章节 中 已 经 讨论 了 很 多 有 效 的 技术 来 存储 这 类 ID 信息 ， 但 如 果 
使 用 的 是 打包 过 的 解决 方案 ， 因 而 无 法 修改 存储 结构 ， 那 该 怎么 办 ? 
例如 使 用 vBulletin 或 者 其 他 基于 MySQL 的 应 用 在 存储 网 站 的 会 话 
(SESSION) 时 ， 需 要 在 一 个 很 长 的 十 六 进 制 字符 串 上 创建 索引 。 此 
时 如 果 来 用 长 度 为 8 的 前 缀 索引 通常 能 显著 地 提升 性 能 ， 并 且 这 种 方法 
对 上 层 应 用 完全 透明 。 
全 有 了 个 过 (suffix index) 也 有 用 途 (例如 ， 找 到 某 个 域名 的 所 有 电子 邮件 地 
址 ) 。MySQL 原 生 并 不 支持 反 向 索引 ， 但 是 可 以 把 字符 申 反 转 后 存储 ， 并 基于 此 建立 前 缀 过 
引 。 可 以 通过 触发 器 来 维护 这 种 索引 。 参 考 5.1 节 中 “创建 自 定义 哈 希 索引 ”部 分 的 相关 内 容 。 


5.3.3 ”多 列 索 引 


很 多 人 对 多 列 索 引 的 理解 都 不 够 。 一 个 常见 的 错误 就 是 ， 为 每 个 
列 创 建 独立 的 索引 ， 或 者 按照 错误 的 顺序 创建 多 列 索 引 。 


我 们 会 在 5.3.4 节 中 单独 讨论 索引 列 的 顺序 问题 。 先 来 看 第 一 个 问 
题 ， 为 每 个 列 创建 独立 的 索引 ， 从 SHOW CREATE TABLE 中 很 容易 看 
到 这 种 情况 : 


CREATE TABLE t ( 
c1 INT, 
c2 INT, 
c3 INT, 
KEY(c1), 
KEY(c2), 
KEY(c3) 

); 


这 种 索引 策略 ， 一 般 是 由 于 人 们 听 到 一 些 专家 诸如 “把 WHERE 条 
件 里 面 的 列 都 建 上 索引 ”这 样 模糊 的 建议 导致 的 。 实 际 上 这 个 建议 是 非 
常 错误 的 。 这 样 一 来 最 好 的 情况 下 也 只 能 是 “一 星 ” 索 引 ， 其 性 能 比 起 
真正 最 优 的 索引 可 能 差 几 个 数量 级 。 有 时 如 果 无 法 设计 一 个 “三 星 ” 索 
引 ， 那 么 不 如 忽略 挤 WHERE 子 句 ， 集 中 精力 优化 索引 列 的 顺序 ， 或 
者 创建 一 个 全 覆盖 索引 。 


在 多 个 列 上 建立 独立 的 单列 索引 大 部 分 情况 下 并 不 能 提高 MySQL 
的 查询 性 能 。MySQL 5.0 和 更 新 版 本 引入 了 一 种 叫 “ 索 引 合 并 ” (index 
merge) 的 策略 ， 一 定 程度 上 可 以 使 用 表 上 的 多 个 单列 索引 来 定位 指定 
的 行 。 更 早 版 本 的 MySQL 只 能 使 用 其 中 某 一 个 单列 索引 ， 然 而 这 种 情 
况 下 没有 了 哪 一 个 独立 的 单列 索引 是 非常 有 效 的 。 例 如 ， 表 film_actor 在 
字段 fm id 和 actor id 上 各 有 一 个 单列 索引 。 但 对 于 下 面 这 个 查询 
WHERE 条 件 ， 这 两 个 单列 索引 都 不 是 好 的 选择 : 


mysql> SELECT film id, actor_id FROM sakila.film_actor 


-> WHERE actor_id = 1 OR film_id = 1; 


在 老 的 MySQL 版 本 中 ，MySQL 对 这 个 查询 会 使 用 全 表 扫 描 。 除 
非 改 写成 如 下 的 两 个 查询 UNION 的 方式 : 


mysql> SELECT film id， actor id FROM sakila.film_actor 
WHERE actor_id = 1 
-> UNION ALL 


-> AND actor_id <> 1; 


但 在 MySQL 5.0 和 更 新 的 版 本 中 ， 查 询 能 够 同时 使 用 这 两 个 单列 
索引 进行 扫描 ， 并 将 结果 进行 合并 。 这 种 算法 有 三 个 变种 : OR 条 件 的 
联合 (union) ，AND 条 件 的 相交 (intersection) ， 组 合 前 两 种 情况 的 
联合 及 相交 。 下 面 的 查询 就 是 使 用 了 两 个 索引 扫描 的 联合 ， 通 过 
EXPLAIN 中 的 Extra 列 可 以 看 到 这 点 : 


mysql> EXPLAIN SELECT film_id, actor_id FROM 
sakila.film_actor 


-> WHERE actor_id = 1 OR film_id = 1\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 As row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 1 
select_type: SIMPLE 


table: film_actor 


type: index_merge 
possible_keys: PRIMARY, idx_fk_film_id 
key: PRIMARY, idx_fk_film_id 
key_len: 2,2 
ref: NULL 
rows: 29 
Extra: Using union(PRIMARY, idx_fk_film_id); Using 


where 


MySQL 会 使 用 这 类 技术 优化 复杂 查询 ， 所 以 在 某 些 语句 的 Extra 列 
中 还 可 以 看 到 杉 套 操作 。 


索引 合并 策略 有 时 候 是 一 种 优化 的 结果 ， 但 实际 上 更 多 时 候 说 明 
TRER EHR: 


。 当 出 现 服务 器 对 多 个 索引 做 相交 操作 时 (通常 有 多 个 AND 条 
F) ， 通 常 意味 着 需要 一 个 包含 所 有 相关 列 的 多 列 索 引 ， 而 不 是 
多 个 独立 的 单列 索引 。 

当 服 务 器 需要 对 多 个 索引 做 联合 操作 时 (通常 有 多 个 OR 条 件 ) ， 
通常 需要 耗费 大 量 CPU 和 内 存 资产 在 算法 的 缓存 、 排 序 和 合并 操 
作 上 。 特 别 是 当 其 中 有 些 索引 的 选择 性 不 高 ， 需 要 合并 扫描 返回 
的 大 量 数据 的 时 候 。 

更 重要 的 是 ， 优 化 器 不 会 把 这 些 计算 到 “查询 成 本 ”(cost) 中 ， 优 
化 器 只 关心 随机 页 面 读 取 。 这 会 使 得 查询 的 成 本 被 “低估 ”， 导 致 
该 执行 计划 还 不 如 直接 走 全 表 扫 描 。 这 样 做 不 但 会 消耗 更 多 的 
CPU 和 内 存 资 源 ， 还 可 能 会 影响 查询 的 并 发 性 ， 但 如 果 是 单独 运 
行 这 样 的 查询 则 往往 会 忽略 对 并 发 性 的 影响 。 通 常 来 说 ， 还 不 如 


像 在 MySQL 4.1 或 者 更 早 的 时 代 一 样 ， 将 查询 改写 成 UNION 的 方 
式 往 往 更 好 。 


如 果 在 EXPLAIN 中 看 到 有 索引 合并 ， 应 该 好 好 检查 一 下 查询 和 表 
的 结构 ， 看 是 不 是 已 经 是 最 优 的 。 也 可 以 通过 参数 optimizer_switch 来 
关闭 索引 合并 功能 。 也 可 以 使 用 IGNORE INDEX 提 示 让 优化 器 忽略 掉 
某 些 索引 。 


5.3.4 ”选择 合适 的 索引 列 顺序 


我 们 遇 到 的 最 容易 引起 困惑 的 问题 就 是 索引 列 的 顺序 。 正 确 的 顺 
序 依赖 于 使 用 该 索引 的 查询 ， 并 且 同 时 需要 考虑 如 何 更 好 地 满足 排序 
和 分 组 的 需要 (顺便 说 明 ， 本 节 内 容 适 用 于 B-Tree 索 引 ; 哈 希 或 者 其 
他 类 型 的 索引 并 不 会 像 B-Tree 索 引 一 样 按 顺序 存储 数据 ) o 


在 一 个 多 列 B-Tree 索 引 中 ， 索 引 列 的 顺序 意味 着 索引 首先 按照 最 
左 列 进行 排序 ， 其 次 是 第 二 列 ， 等 等 。 所 以 ， 索 引 可 以 按照 升序 或 者 
降序 进行 扫描 ， 以 满足 精确 符合 列 顺序 的 ORDER BY, GROUP BY 和 
DISTINCT 等 子 句 的 查询 需求 。 


所 以 多 列 索引 的 列 顺 序 至 关 重 要 。 在 Lahdenmaki 和 Leach 的 “三 星 
索引 ”系统 中 ， 列 顺序 也 决定 了 一 个 索引 是 否 能 够 成 为 一 个 真正 的 “三 
星 索 3 引 ”( 关 于 三 星 索引 可 以 参考 本 章 前 面 的 5.2 节 ) 。 在 本 章 的 后 续 
部 分 我 们 将 通过 大 量 的 例子 来 说 明 这 一 点 。 


对 于 如 何 选择 索引 的 列 顺序 有 一 个 经 验 法 则 : 将 选择 性 最 高 的 列 
放 到 索引 最 前 列 。 这 个 建议 有 用 吗 ? 在 某 些 场景 可 能 有 帮助 ， 但 通常 不 


如 避免 随机 IO 和 排序 那么 重要 ， 考 虑 问题 需要 更 全 面 (场景 不 同 则 选 
择 不 同 ， 没 有 一 个 放 之 四 海 皆 准 的 法 则 。 这 里 只 是 说 明 ， 这 个 经 验 法 
则 可 能 没有 你 想象 的 重要 ) 。 


当 不 需要 考虑 排序 和 分 组 时 ， 将 选择 性 最 高 的 列 放 在 前 面 通 单 是 
很 好 的 。 这 时 候 索引 的 作用 只 是 用 于 优化 WHERE 条 件 的 查找 。 在 这 
种 情况 下 ， 这 样 设 计 的 索引 确实 能 够 最 快 地 过 滤 出 需要 的 行 ， 对 于 在 
WHERE 子 句 中 只 使 用 了 索引 部 分 前 级 列 的 查询 来 说 选择 性 也 更 高 。 
然而 ， 性 能 不 只 是 依赖 于 所 有 索引 列 的 选择 性 (整体 基数 ) ， 也 和 查 
询 条 件 的 具体 值 有 关 ， 也 就 是 和 值 的 分 布 有 天 。 这 和 前 面 介 绍 的 选择 
前 缀 的 长 度 需要 考虑 的 地 方 一 样 。 可 能 需要 根据 那些 运行 频率 最 高 的 
查询 来 调整 这 引 列 的 顺序 ， 让 这 种 情况 下 索引 的 选择 性 最 高 。 


以 下 面 的 查询 为 例 : 


SELECT * FROM payment WHERE staff_id = 2 AND customer_id = 


584; 


是 应 该 创建 一 个 (staff_id，customer_id) 索引 还 是 应 该 颠倒 一 下 
顺序 ?可 以 跑 一 些 查询 来 确定 在 这 个 表 中 值 的 分 布 情况 ， 并 确定 哪个 列 
的 选择 性 更 高 。 先 用 下 面 的 查询 预测 一 下 9， 看 看 各 个 WHERE 条 件 的 
分 支 对 应 的 数据 基数 有 多 大 : 


mysql> SELECT SUM(staff_id = 2), SUM(customer_id = 584) 


FROM payment\G 


火炎 火炎 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 


炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


SUM(staff_id = 2): 7992 


SUM(customer_id = 584): 30 


根据 前 面 的 经 验 法 则 ， 应 该 将 索引 列 customer_id 放 到 前 面 ， 因 为 
对 应 条 件 值 的 customer id 数量 更 小 。 我 们 再 来 看 看 对 于 这 个 
customer_id 的 条 件 值 ， 对 应 的 staff_id 列 的 选择 性 如 何 : 


mysql> SELECT SUM(staff_id = 2) FROM payment WHERE 


customer_id = 584\G 


火炎 火炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 


炎炎 炎炎 类 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


SUM(staff_id = 2): 17 


这 样 做 有 一 个 地 方 需要 注意 ， 查 询 的 结果 非常 依赖 于 选 定 的 具体 
值 。 如 果 按 上 述 办 法 优化 ， 可 能 对 其 他 一 些 条 件 值 的 查询 不 公平 ， 服 
务 器 的 整体 性 能 可 能 变 得 更 糟 ， 或 者 其 他 某 些 查询 的 运行 变 得 不 如 预 
期 。 


如 果 是 从 诸如 ptquery-digest 这 样 的 工具 的 报告 中 提取 “最 差 > 查 
询 ， 那 么 再 按 上 述 办 法 选 定 的 索引 顺序 往往 是 非常 高 效 的 。 如 果 没 有 
类 似 的 具体 查询 来 运行 ， 那 么 最 好 还 是 按 经 验 法 则 来 做 ， 因 为 经 验 法 
则 考虑 的 是 全 局 基数 和 选择 性 ， 而 不 是 某 个 具体 查询 : 


mysql> SELECT COUNT(DISTINCT staff_id)/COUNT(*) AS 


staff_id_selectivity, 


> COUNT(DISTINCT customer_id)/COUNT(*) AS 
customer_id_ selectivity, 
> COUNT(*) 
> FROM payment\G 


火炎 大火 大火 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 


staff_id_selectivity: 0.0001 
customer_id_selectivity: 0.0373 


COUNT(*): 16049 


customer_id 的 选择 性 更 高 ， 所 以 答案 是 将 其 作为 索引 列 的 第 一 
列 : 


mysql> ALTER TABLE payment ADD KEY(customer_id, staff_id); 


当 使 用 前 缀 索引 的 时 候 ， 在 某 些 条 件 值 的 基数 比 正常 值 高 的 时 
候 ， 问 题 就 来 了 。 例 如 ， 在 某 些 应 用 程序 中 ， 对 于 没有 登录 的 用 户 ， 
都 将 其 用 户 名 记录 为 “guset*， 在 记录 用 户 行 为 的 会 话 (session) Al 
其 他 记录 用 户 活动 的 表 中 “guest”* 就 成 为 了 一 个 特殊 用 户 ID。 一 旦 查询 
涉及 这 个 用 户 ， 那 么 和 对 于 正常 用 户 的 查询 就 大 不 同 了 ， 因 为 通常 有 
很 多 会 话 都 是 没有 登录 的 。 系 统 账 号 也 会 导致 类 似 的 问题 。 一 个 应 用 
通常 都 有 一 个 特殊 的 管理 员 账 号 ， 和 普通 账号 不 同 ， 它 并 不 是 一 个 具 
体 的 用 户 ， 系 统 中 所 有 的 其 他 用 户 都 是 这 个 用 户 的 好 友 ， 所 以 系统 往 
往 通 过 它 向 网 站 的 所 有 用 户 发 送 状态 通知 和 其 他 消息 。 这 个 账号 的 巨 
大 的 好 友 列 表 很 容易 导致 网 站 出 现 服务 器 性 能 问题 。 


这 实际 上 是 一 个 非常 典型 的 问题 。 任 何 的 异常 用 户 ， 不 仅仅 是 那 
些 用 于 管理 应 用 的 设计 糟糕 的 账号 会 有 同样 的 问题 ;那些 拥有 大 量 好 
友 、 图 片 、 状 态 、 收 藏 的 用 户 ， 也 会 有 前 面 提 到 的 系统 账号 同样 的 问 


题 。 


下 面 是 一 个 我 们 遇 到 过 的 真实 案例 ， 在 一 个 用 户 分 享 购买 商品 和 
购买 经 验 的 论坛 上 ， 这 个 特殊 表 上 的 查询 运行 得 非常 慢 : 


mysql> SELECT COUNT(DISTINCT threadId) AS COUNT_VALUE 
-> FROM Message 
-> WHERE (groupId = 10137) AND (userId = 1288826) AND 
(anonymous = 0) 


-> ORDER BY priority DESC，modifiedDate DESC 


这 个 查询 看 似 没有 建立 合适 的 索引 ， 所 以 客户 咨询 我 们 是 否 可 以 
优化 。EXPLAIN 的 结果 如 下 : 


id: 1 
select_type: SIMPLE 
table: Message 
type: ref 
key: 1x_groupId_userId 
key_len: 18 
ref: const,const 
rows: 1251162 


Extra: Using where 


MySQL 为 这 个 查询 选择 了 索引 (groupId，userId) ， 如 果 不 考虑 
列 的 基数 ， 这 看 起 来 是 一 个 非常 合理 的 选择 。 但 如 果 考 虑 一 下 user ID 
和 group ID 条 件 匹配 的 行 数 ， 可 能 就 会 有 不 同 的 想法 了 : 


mysql> SELECT COUNT(*), SUM(groupId = 10137), 
-> SUM(userId = 1288826), SUM(anonymous = 0) 


-> FROM Message\G 


火炎 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 


大 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


count(*): 4142217 
sum(groupId = 10137): 4092654 
sum(userId = 1288826): 1288496 


sum(anonymous = 0): 4141934 


从 上 面 的 结果 来 看 符合 组 (groupld) 条 件 几 乎 满足 表 中 的 所 有 
行 ， 符 合用 户 (userId) 条 件 的 有 130 万 条 记录 一 一 也 就 是 说 索引 基本 
上 没什么 用 。 因 为 这 些 数据 是 从 其 他 应 用 中 迁移 过 来 的 ， 迁 移 的 时 候 
把 所 有 的 消息 都 赋予 了 管理 员 组 的 用 户 。 这 个 案例 的 解决 办 法 是 修改 
应 用 程序 代码 ， 区 分 这 类 特殊 用 户 和 组 ， 茶 止 针 对 这 类 用 户 和 组 执行 


这 个 查询 。 


从 这 个 小 案例 可 以 看 到 经 验 法 则 和 推论 在 多 数 情况 是 有 用 的 ， 但 
要 注意 不 要 假设 平均 情况 下 的 性 能 也 能 代表 特殊 情况 下 的 性 能 ， 特 殊 
情况 可 能 会 摧毁 整个 应 用 的 性 能 。 


最 后 ， 尽 管 关于 选择 性 和 基数 的 经 验 法 则 值得 去 研究 和 分 析 ， 但 
一 定 要 记 住 别 志 了 WHERE 子 句 中 的 排序 、 分 组 和 范围 条 件 等 其 他 因 


素 ， 这 些 因素 可 能 对 查询 的 性 能 造成 非常 大 的 影响 。 


5.3.5 RA 


聚 簇 索引 中 并 不 是 一 种 单独 的 索引 类 型 ， 而 是 一 种 数据 存储 方 
式 。 具 体 的 细节 依赖 于 其 实现 方式 ， 但 InnoDB 的 聚 族 索引 实际 上 在 同 
一 个 结构 中 保存 了 B-Tree 索 引 和 数据 行 。 当 表 有 聚 艇 索引 时 ， 它 的 数 
据 行 实际 上 存放 在 索引 的 叶子 页 (leaf page) Po RA RI RMA 
行 和 相 邻 的 键 值 紧凑 地 存储 在 一 起 外 。 因 为 无 法 同时 把 数据 行 存放 在 
两 个 不 同 的 地 方 ， 所 以 一 个 表 只 能 有 一 个 聚 艇 索 引 (BR, BERS! 
可 以 模拟 多 个 聚 簇 索 引 的 情况 ， 本 章 后 面 将 详细 介绍 ) 。 


因为 是 存储 引擎 负责 实现 察 引 ， 因 此 不 是 所 有 的 存储 引擎 都 支持 
聚 簇 索引 。 本 节 我 们 主要 关注 InnoDB， 但 是 这 里 讨论 的 原理 对 于 任何 
支持 聚 族 索 5 引 的 存储 引擎 都 是 适用 的 。 


图 5-3 展 示 了 聚 族 索引 中 的 记录 是 如 何 存放 的 。 注 意 到 ， 叶 子 页 包 
含 了 行 的 全 部 数据 ， 但 是 节点 页 只 包含 了 索引 列 。 在 这 个 案例 中 ， 索 
引 列 包含 的 是 整数 值 。 


Akroyd Akroyd = 
(Christian Debbie 
1958-12-07 | 1990-03-18 $ 


Barrymore | Basinger 
Julia Vivien 
2000-05-16 | 1976-12-08 


图 5-3: SRS | NAGE 


一 些 数 据 库 服务 器 允许 选择 哪个 索引 作为 聚 族 索 引 ， 但 直到 本 书 
与 作 之 际 ， 还 没有 任何 一 个 MySQL 内 建 的 存储 引 筝 支持 这 一 点 。 
InnoDB 将 通过 主键 聚集 数据 ， 这 也 就 是 说 图 5-3 中 的 “被 索引 的 列 ” 就 是 
主键 列 。 


如 果 没有 定义 主键 ，InnoDB 会 选择 一 个 唯一 的 非 空 索引 代替 。 如 
果 没 有 这 样 的 索引 ，InnoDB 会 隐 式 定义 一 个 主键 来 作为 聚 簇 索引 。 
InnoDB 只 聚集 在 同一 个 页 面 中 的 记录 。 包 含 相 邻 键 值 的 页 面 可 能 会 相 
距 甚 远 。 


聚 族 主键 可 能 对 性 能 有 帮助 ， 但 也 可 能 导致 严重 的 性 能 问题 。 所 
以 需要 仔细 地 考虑 聚 族 索 5| ， 尤 其 是 将 表 的 存储 引擎 从 InnoDB 改 成 其 
他 引擎 的 时 候 〈 反 过 来 也 一 样 ) 。 


聚集 的 数据 有 一 些 重要 的 优点 : 


。 可 以 把 相关 数据 保存 在 一 起 。 例 如 实现 电子 邮箱 时 ， 可 以 根据 用 
户 ID 来 聚集 数据 ， 这 样 只 需要 从 磁盘 读 取 少数 的 数据 页 就 能 获取 
某 个 用 户 的 全 部 邮件 。 如 果 没 有 使 用 聚 簇 索 引 ， 则 每 封 邮件 都 可 
能 导致 一 次 磁盘 IO。 

数据 访问 更 快 。 聚 簇 索 引 将 索引 和 数据 保存 在 同一 个 B-Tree 中 ， 
因此 从 聚 簇 索引 中 获取 数据 通常 比 在 非 聚 族 索 引 中 查找 要 快 。 

。 使 用 覆盖 索引 扫描 的 查询 可 以 直接 使 用 页 节点 中 的 主键 值 。 


如 果 在 设计 表 和 查询 时 能 充分 利用 上 面 的 优点 ， 那 就 能 极 大 地 提 
升 性 能 。 同 时 ， 聚 复 索 引 也 有 一 些 缺 点 : 


。 聚 艇 数据 最 大 限度 地 提高 了 1/O 密 集 型 应 用 的 性 能 ， 但 如 果 数 据 全 
部 都 放 在 内 存 中 ， 则 访问 的 顺序 就 没 那么 重要 了 ， 聚 得 索引 也 就 
没什么 优势 了 。 

插入 速度 严重 依赖 于 插入 顺序 。 按 照 主键 的 顺序 插入 是 加 载 数据 
到 InnoDB 表 中 速度 最 快 的 方式 。 但 如 果 不 是 按照 主键 顺序 加 载 数 
据 ， 那 么 在 加 载 完成 后 最 好 使 用 OPTIMIZE TABLE 命 令 重 新 组 织 
一 下 表 。 

更 新 聚 簇 索引 列 的 代价 很 高 ， 因 为 会 强制 InnoDB 将 每 个 被 更 新 的 
行 移动 到 新 的 位 置 。 

基于 聚 簇 索 引 的 表 在 插入 新 行 ， 或 者 主键 被 更 新 导致 需要 移动 行 
的 时 候 ， 可 能 面临 “页 分 裂 (page split) ”的 问题 。 当 行 的 主键 值 
要 求 必 须 将 这 一 行 插入 到 某 个 已 满 的 页 中 时 ， 存 储 引擎 会 将 该 页 
分 裂 成 两 个 页 面 来 容纳 该 行 ， 这 就 是 一 次 页 分 裂 操 作 。 页 分 裂 会 
导致 表 占 用 更 多 的 磁盘 空间 。 

聚 徐 索 引 可 能 导致 全 表 扫 描 变 慢 ， 尤 其 是 行 比较 稀 疏 ， 或 者 由 于 
页 分 裂 导 致 数据 存储 不 连续 的 时 候 。 


二 级 索引 ( 非 聚 族 索 引 ) 可 能 比 想象 的 要 更 大 ， 因 为 在 二 级 索引 
的 叶子 节 点 包含 了 引用 行 的 主键 列 。 
二 级 索引 访问 需要 两 次 索引 得 找 ， 而 不 是 一 次 。 


最 后 一 点 可 能 让 人 有 些 疑 惑 ， 为 什么 二 级 索引 需要 两 次 索引 得 
找 ? 答案 在 于 二 级 索引 中 保存 的 “ 行 指 针 ” 的 实质 。 要 记 住 ， 二 级 索引 
叶子 节点 保存 的 不 是 指向 行 的 物理 位 置 的 指针 ， 而 是 行 的 主键 值 。 


这 意味 着 通过 二 级 索引 查找 行 ， 存 储 引 擎 需要 找到 二 级 索引 的 叶 
子 节 点 获得 对 应 的 主键 值 ， 然 后 根据 这 个 值 去 聚 得 索引 中 查找 到 对 应 
的 行 。 这 里 做 了 重复 的 工作 : 两 次 B-Tree 查 找 而 不 是 一 次 久 。 对 于 
InnoDB， 自 适应 哈 希 索引 能 够 减少 这 样 的 重复 工作 。 


InnoDB 和 MyISAM 的 数据 分 布 对 比 


聚 徐 索引 和 非 聚 得 索引 的 数据 分 布 有 区 别 ， 以 及 对 应 的 主键 索引 
和 二 级 索引 的 数据 分 布 也 有 区 别 ， 通 常会 让 人 感到 困扰 和 意外 。 来 看 
看 InnoDB 和 MyISAM 是 如 何 存 储 下 面 这 个 表 的 : 


CREATE TABLE layout test ( 
coli int NOT NULL, 
col2 int NOT NULL, 
PRIMARY KEY(col1), 
KEY(col12) 


假设 该 表 的 主键 取 值 为 1 一 10000， 按 照 随机 顺序 插入 并 使 用 
OPTIMIZE TABLE 命 令 做 了 优化 。 换 名 话说， 数据 在 磁盘 上 的 存储 方 
式 已 经 最 优 ， 但 行 的 顺序 是 随机 的 。 列 col2 的 值 是 从 1 一 100 之 间 随 机 
赋值 ， 所 以 有 很 多 重复 的 值 。 


MyISAM 的 数据 分 布 。MyISAM 的 数据 分 布 非常 简单 ， 所 以 先 介 
绍 它 。MyISAM 按 照 数据 插入 的 顺序 存储 在 磁盘 上 ， 如 图 5-4 所 示 。 


行 号 。 toll col? 


0 99 8 

1 12 56 

Bi 
wee 


图 5-4: MyISAM 表 layout_test 的 数据 分 布 


在 行 的 旁边 显示 了 行 号 ， 从 0 开始 递增 。 因 为 行 是 定 长 的 ， 所 以 
MyISAM 可 以 从 表 的 开头 跳 过 所 需 的 字 节 找到 需要 的 行 (MyISAM 并 
不 总 是 使 用 图 5-4 中 的 “ 行 号 ”， 而 是 根据 定 长 还 是 变 长 的 行使 用 不 同 策 
略 ) 。 


这 种 分 布 方式 很 容易 创建 索引 。 下 面 显 示 的 一 系列 图 ， 隐 藏 了 页 
的 物理 细节 ， 只 显示 索引 中 的 “节点 ”， 索 引 中 的 每 个 叶子 节点 包含 “ 行 
号 ”。 图 5-5 显 示 了 表 的 主键 。 


C 列 值 
His 内 部 节点 


da, Oo 
) $ it ava. aaa As 


图 5-5: MyISAM 表 layout_test 的 主键 分 布 


这 里 忽略 了 一 些 细节 ， 例 如 前 一 个 B-Tree 节 点 有 多 少 个 内 部 节 
点 ， 不 过 这 并 不 影响 对 非 聚 徐 存 储 引 警 的 基本 数据 分 布 的 理解 。 


那 col2 列 上 的 索引 又 会 如 何 呢 ? 有 什么 特殊 的 吗 ? 回答 是 否 
的 : 它 和 其 他 索引 没有 什么 区 别 。 图 5-6 显 示 了 col2 列 上 的 索引 。 


Dati 
Hits 


~ 内 部 节点 
“a = as. 
( E H a oa ae 


图 5-6: MyISAM 表 layout_test 的 col2 列 索引 的 分 布 


事实 上 ，MyISAM 中 主键 索引 和 其 他 索引 在 结构 上 没有 什么 不 
同 。 主 键 索引 就 是 一 个 名 为 PRIMARY 的 唯一 非 空 索引 。 


InnoDB 的 数据 分 布 。 因 为 InnoDB 支 持 聚 簇 索引 ， 所 以 使 用 非常 不 
同 的 方式 存储 同样 的 数据 。InnoDB 以 如 图 5-7 所 示 的 方式 存储 数据 。 


O F {coli ) 
m 3 ID iy 


E 回 滚 指针 | indie 
fF F e 
msani = LY Ly LY. 


Pa 9 yl a 
i all | ne ~ - - - a h InnoDB Wik 
i hi Li ii ”索引 时 子 节点 


图 5-7: InnoDB 表 layout_test 的 主键 分 布 


第 一 眼看 上 去 ， 感 觉 该 图 和 前 面 的 图 5-5 没 有 什么 不 同 ， 但 再 仔细 
看 细节 ， 会 注意 到 该 图 显示 了 整个 表 ， 而 不 是 只 有 索引 。 因 为 在 
InnoDB 中 ， 聚 族 索 引 “ 就 是 * 表 ， 所 以 不 像 MyISAM 那 样 需要 独立 的 行 
存储 。 


聚 簇 索 引 的 每 一 个 叶子 节点 都 包含 了 主键 值 、 事 务 ID、 用 于 事务 
和 MVCC4o) 的 回 滚 指针 以 及 所 有 的 剩余 列 (在 这 个 例子 中 是 col2) o 
如 果 主 键 是 一 个 列 前 缀 索引 ，InnoDB 也 会 包含 完整 的 主键 列 和 剩 下 的 
其 他 列 。 


还 有 一 点 和 MyISAM 的 不 同 是 ，InnoDB 的 二 级 索引 和 聚 簇 索引 很 
不 相同 。InnoDB 二 级 索引 的 叶子 节点 中 存储 的 不 是 “ 行 指 针 ”， 而 是 主 
键 值 ， 并 以 此 作为 指向 行 的 “指针 ”。 这 样 的 策略 减少 了 当 出 现行 移动 
或 者 数据 页 分 裂 时 二 级 索引 的 维护 工作 。 使 用 主键 值 当 作 指 针 会 让 二 
级 索引 占用 更 多 的 空间 ， 换 来 的 好 处 是 ，InnoDB 在 移动 行 时 无 须 更 新 
二 级 索引 中 的 这 个 “指针 ”。 


图 5-8 显 示 了 示例 表 的 col2 索 引 。 每 一 个 叶子 节点 都 包含 了 索引 列 
(这 里 是 col2) ， 紧 接着 是 主键 值 (coll) o 


图 5-8 展 示 了 B-Tree 的 叶子 节点 结构 ， 但 我 们 故意 省 略 了 非 叶 子 节 
点 这 样 的 细节 。InnoDB 的 非 叶 子 节点 包含 了 索引 列 和 一 个 指向 下 级 节 
点 的 指针 (下 一 级 节点 可 以 是 非 叶 子 节点 ， 也 可 以 是 叶子 节点 ) o X 
对 聚 簇 索 引 和 二 级 索引 都 适用 。 


E REIF ( cot) 
加 主键 列 ( colt ) 


oa 
; =e tar 


图 5-8: InnoDB 表 layout_test 的 二 级 索引 分 布 


图 5-9 是 描述 InnoDB 和 MyISAM 如 何 存放 表 的 抽象 图 。 从 图 5-9 中 
可 以 很 容易 看 出 InnoDB 和 MyISAM 保 存 数 据 和 索引 的 区 别 。 
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图 5-9: BRMIERERM LA 


如 果 还 没有 理解 聚 徐 索 引 和 非 聚 族 索引 有 什么 区 别 、 为 何 有 这 
区 别 及 这 些 区 别 的 重要 性 ， 也 不 用 担心 。 随 着 学 习 的 深入 ， 尤 其 是 
完 本 章 剩 下 的 部 分 以 及 下 一 章 以 后 ， 这 些 问题 就 会 变 得 越发 清楚 。 
些 概念 有 些 复杂 ， 需 要 一 些 时 间 才 能 完全 理解 。 


it 
学 
这 


在 InnoDB 表 中 按 主键 顺序 插入 行 


如 果 正 在 使 用 InnoDB 表 并 且 没 有 什么 数据 需要 聚集 ， 那 么 可 以 定 
义 一 个 代理 键 (surrogate key) 作为 主键 ， 这 种 主键 的 数据 应 该 和 应 用 
无 关 ， 最 简单 的 方法 是 使 用 AUTO_INCREMENT 自 增 列 。 这 样 可 以 保 
证 数据 行 是 按 顺 序 写 入 ， 对 于 根据 主键 做 关联 操作 的 性 能 也 会 更 好 。 


最 好 避免 随机 的 (不 连续 且 值 的 分 布 范 围 非常 大 ) RRL 
别 是 对 于 W/O 密集 型 的 应 用 。 例 如 ， 从 性 能 的 角度 考虑 ， 使 用 UUID 来 
作为 聚 徐 索 引 则 会 很 糟糕 : 它 使 得 聚 族 索引 的 插入 变 得 完全 随机 ， 这 
是 最 坏 的 情况 ， 使 得 数据 没有 任何 聚集 特性 。 


为 了 演示 这 一 点 ， 我 们 做 如 下 两 个 基准 测试 。 第 一 个 使 用 整数 ID 
插入 userinfo 表 : 


CREATE TABLE userinfo ( 


id int unsigned NOT NULL AUTO_INCREMENT, 
name varchar(64) NOT NULL DEFAULT '' 
email varchar(64) NOT NULL DEFAULT '' 


password varchar(64) NOT NULL DEFAULT '', 


dob date DEFAULT NULL, 


address varchar(255) NOT NULL DEFAULT '', 

city varchar(64) NOT NULL DEFAULT '', 

state_id tinyint unsigned NOT NULL DEFAULT 'O', 

Zip varchar(8) NOT NULL DEFAULT '', 
country_id smallint unsigned NOT NULL DEFAULT 

gt 

gender ('M', 'F')NOT NULL DEFAULT 'M', 

account_type varchar(32) NOT NULL DEFAULT '', 

verified tinyint NOT NULL DEFAULT 'O', 

allow_mail tinyint unsigned NOT NULL DEFAULT 'O', 


parrent_account int unsigned NOT NULL DEFAULT 'O', 
closest_airport varchar(3) NOT NULL DEFAULT '', 
PRIMARY KEY (id), 


UNIQUE KEY email (email), 


KEY country_id (country_id), 
KEY state_id (state_id), 
KEY state_id_2 (state_id,city, address) 


) ENGINE=InnobB 
注意 到 使 用 了 自 增 的 整数 ID 作为 主键 出)。 


第 二 个 例子 是 userinfo_uuid 表 。 除 了 主键 改 为 UUID ， 其 余 和 前 面 
的 userinfo 表 完全 相同 。 


CREATE TABLE userinfo_uuid ( 


uuid varchar(36) NOT NULL, 


我 们 测试 了 这 两 个 表 的 设计 。 首 先 ， 我 们 在 一 个 有 足够 内 存 容 纳 
索引 的 服务 器 上 向 这 两 个 表 各 插入 100 万 条 记录 。 然 后 向 这 两 个 表 继 续 
插入 300 万 条 记录 ， 使 索引 的 大 小 超过 服务 器 的 内 存 容量 。 表 5-1 对 测 
试 结果 做 了 比较 。 


表 5-1: 向 InnoDB 表 插入 数据 的 测试 结果 


索引 大 小 
(MB) 


表 名 行 数 时 间 (#)) 


注意 到 向 UUID 主 键 插入 行 不 仅 人 花费 的 时 间 更 长 ， 而 且 索 引 占 用 的 
空间 也 更 大 。 这 一 方面 是 由 于 主键 字段 更 长 ; 另 一 方面 军 无 疑问 是 由 
FARM SBA. 


为 了 明白 为 什么 会 这 样 ， 来 看 看 往 第 一 个 表 中 插入 数据 时 ， 索 引 
发 生 了 什么 变化 。 图 5-10 显 示 了 插 满 一 个 页 面 后 继续 插入 相 邻 的 下 一 
个 页 面 的 场景 。 


EFAA AST: 每 条 新 记录 SRE, HAART 
总 是 在 前 一 条 记录 的 后 面 插 入 ' 


图 5-10: 向 聚 簇 索引 插入 顺序 的 索引 值 


如 图 5-10 所 示 ， 因 为 主键 的 值 是 顺序 的 ， 所 以 InnoDB 把 每 一 条 记 
录 都 存储 在 上 一 条 记录 的 后 面 。 当 达到 页 的 最 大 填充 因子 时 (InnoDB 
默认 的 最 大 填充 因子 是 页 大 小 的 15/16 ， 留 出 部 分 空间 用 于 以 后 修 
改 ) ， 下 一 条 记录 就 会 写 入 新 的 页 中 。 一 旦 数据 按照 这 种 顺序 的 方式 
加 载 ， 主 键 页 就 会 近似 于 被 顺序 的 记录 填 满 ， 这 也 正 是 所 期 望 的 结果 
(然而 ， 二 级 索引 页 可 能 是 不 一 样 的 ) 。 


对 比 一 下 向 第 二 个 使 用 了 UUID 聚 族 索 引 的 表 插 入 数据 ， 看 看 有 什 
么 不 同 ， 图 5-11 显 示 了 结果 。 


因为 新 行 的 主键 值 不 一 定 比 之 前 插入 的 大 ， 所 以 InnoDB 无 法 简单 
地 总 是 把 新 行 插入 到 索引 的 最 后 ， 而 是 需要 为 新 的 行 寻找 合适 的 位 置 
通常 是 已 有 数据 的 中 间 位 置 一 一 并 且 分 配 空间 。 这 会 增加 很 多 的 
额外 工作 ， 并 导致 数据 分 布 不 够 优化 。 下 面 是 总 结 的 一 些 缺 点 : 


。 写 入 的 目标 页 可 能 已 经 刷 到 磁盘 上 并 从 缓存 中 移 除 ， 或 者 是 还 没 
有 被 加 载 到 缓存 中 ，InnoDB 在 插入 之 前 不 得 不 先 找到 并 从 磁盘 读 
取 目 标 页 到 内 存 中 。 这 将 导致 大 量 的 随机 IO。 

。 因为 写 入 是 乱 序 的 ，InnoDB 不 得 不 频繁 地 做 页 分 裂 操作 ， 以 便 为 
新 的 行 分 配 空间 。 页 分 黎 会 导致 移动 大 量 数据 ， 一 次 插入 最 少 需 
要 修改 三 个 页 而 不 是 一 个 页 。 


。 由 于 频繁 的 页 分 裂 ， 页 会 变 得 稀疏 并 被 不 规则 地 填充 ， 所 以 最 终 
DURE ATA o 


在 把 这 些 随 机 值 载 入 到 聚 簇 索 引 以 后 ， 也 许 需要 做 一 次 
OPTIMIZE TABLE 来 重建 表 并 优化 页 的 填充 。 


从 这 个 案例 可 以 看 出 ， 使 用 InnoDB 时 应 该 尽 可 能 地 按 主键 顺序 插 
入 数据 ， 并 且 尽 可 能 地 使 用 单调 增加 的 聚 族 键 的 值 来 插入 新 行 。 


MA UID: 新 的 记录 可 能 插入 到 之 前 记录 的 中 间 ， 
导致 需要 强制 移动 之 前 的 记录 


| 000844 | 00l6G | ouni P 
| 16-6175 | 12-6175 | 8e-6177 | 


被 写 满 且 已 经 剧 到 磁盘 上 的 页 
可 能 会 被 重新 读 取 


öde | 0a | 002775 | OORT 
20-6180 | 12-6175 | 64-6178 | 8e-6177 

001475 
只 显示 了 UID te kasii 


的 前 3 个 字符 


| 16-6175 


图 5-11 : 向 聚 簇 索引 中 插入 无 序 的 值 


顺序 的 主键 什么 时 候 会 造成 更 坏 的 结果 ? 


对 于 高 并 发 工作 负载 ， 在 InnoDB 中 按 主键 顺序 插入 可 能 会 造成 
明显 的 争 用 。 主 键 的 上 界 会 成 为 “热点 ”。 因 为 所 有 的 插入 都 发 生 在 
这 里 ， 所 以 并 发 插入 可 能 导致 间 隐 锁 竞 争 。 另 一 个 热点 可 能 是 


AUTO_INCREMENT 锁 机 制 ; 如 果 遇 到 这 个 问题 ， 则 可 能 需要 考虑 
重新 设计 表 或 者 应 用 ， 或 者 更 改 innodb_autoinc_lock_mode 配 置 。 如 
果 你 的 服务 器 版 本 还 不 支持 innodb_autoinc_lock_mode 参 数 ， 可 以 升 
级 到 新 版 本 的 InnoDB， 可 能 对 这 种 场景 会 工作 得 更 好 。 


5.3.6 MAASI 


通常 大 家 都 会 根据 查询 的 WHERE 条 件 来 创建 合适 的 索引 ， 不 过 


这 只 是 索引 优化 的 一 个 方面 。 设 计 优 秀 的 索引 应 该 考虑 到 整个 查询 ， 
而 不 单单 是 WHERE 条 件 部 分 。 索 引 确 实 是 一 种 查找 数据 的 高 效 方 


式 ， 


但 是 MySQL 也 可 以 使 用 索引 来 直接 获取 列 的 数据 ， 这 样 就 不 再 需 


要 读 取 数据 行 。 如 果 索 引 的 叶子 节点 中 已 经 包含 要 查询 的 数据 ， 那 么 
还 有 什么 必要 再 回 表 查 询 呢 ?如 果 一 个 索引 包含 (或 者 说 覆盖 ) 所 有 需 


要 查 


果 查 


询 的 字段 的 值 ， 我 们 就 称 之 为 “覆盖 索引 1”。 


覆盖 索引 是 非常 有 用 的 工具 ， 能 够 极 大 地 提高 性 能 。 考 虑 一 下 如 
询 只 需要 扫描 索引 而 无 须 回 表 ， 会 囊 来 多 少 好 处 : 


索引 条 目 通常 远 小 于 数据 行 大 小 ， 所 以 如 果 只 需要 读 取 索 引 ， 那 
MySQL 就 会 极 大 地 减少 数据 访问 量 。 这 对 缓存 的 负载 非常 重要 ， 
因为 这 种 情况 下 响应 时 间 大 部 分 花费 在 数据 拷贝 上 。 覆 盖 索 引 对 
于 1/O 密 集 型 的 应 用 也 有 帮助 ， 因 为 索引 比 数 据 更 小 ， 更 容易 全 部 
放 入 内 存 中 (这 对 于 MyISAM 尤 其 正确 ， 因 为 MyISAM 能 压缩 索 
引 以 变 得 更 小 ) 。 

因为 索引 是 按照 列 值 顺 序 存储 的 (至 少 在 单个 页 内 是 如 此 ) ， 所 
以 对 于 1/O 密 集 型 的 范围 查询 会 比 随 机 从 磁盘 读 取 每 一 行 数据 的 


IO 要 少 得 多 。 对 于 某 些 存储 引擎 ， 例 如 MyISAM 和 Percona 
XtraDB， 甚 至 可 以 通过 OPTIMIZE 命 令 使 得 索引 完全 顺序 排列 ， 
这 让 简单 的 范围 查询 能 使 用 完全 顺序 的 索引 访问 。 

一 些 存储 引擎 如 MyISAM 在 内 存 中 只 缓存 索引 ， 数 据 则 依赖 于 操 
作 系 统 来 缓存 ， 因 此 要 访问 数据 需要 一 次 系统 调用 。 这 可 能 会 导 
致 严重 的 性 能 问题 ， 尤 其 是 那些 系统 调用 占 了 数据 访问 中 的 最 大 
开销 的 场景 。 

FA F InnoDB AY Rie AS|, BRAS WinnoDPRPAIA A. 
InnoDB 的 二 级 索引 在 叶子 节点 中 保存 了 行 的 主键 值 ， 所 以 如 果 二 
级 主键 能 够 覆盖 查询 ， 则 可 以 避免 对 主键 索引 的 二 次 查询 。 


在 所 有 这 些 场景 中 ， 在 索引 中 满足 查询 的 成 本 一 般 比 查询 行 要 小 


4 
导 多 。 


不 是 所 有 类 型 的 索引 都 可 以 成 为 覆盖 索引 。 覆 盖 索 引 必 须要 存储 
索引 列 的 值 ， 而 哈 希 索引 、 空 间 索 引 和 全 文 索引 等 都 不 存储 索引 列 的 
值 ， 所 以 MySQL 只 能 使 用 B-Tree 索 引 做 覆盖 索引 。 另 外 ， 不 同 的 存储 
引擎 实现 覆盖 索引 的 方式 也 不 同 ， 而 且 不 是 所 有 的 引擎 都 支持 覆盖 索 
5| (在 写作 本 书 时 ，Memory 存 储 引 擎 就 不 支持 覆盖 索 3|) o 


当 发 起 一 个 被 索引 覆盖 的 查询 (也 叫做 索引 覆盖 查询 N, E 
EXPLAIN 的 Extra 列 可 以 看 到 “Using index” H9 iB”. HA, X 
sakila.inventory 有 一 个 多 列 索 引 (store_id, flm_id) 。MySQL 如 果 只 
需 访 问 这 两 列 ， 就 可 以 使 用 这 个 索引 做 覆盖 索引 ， 如 下 所 示 : 


mysql> EXPLAIN SELECT store_id, film id FROM sakila.inventory\G 


人 1 row KEKEKEKKEKRKEKEKEKEKRKEKRKEKEKEKEKEKEKEKKEEEEEK 


id: 1 
select_type: SIMPLE 
table: inventory 
type: index 
possible_keys: NULL 
key: idx_store_id_film_id 
key_len: 3 
ref: NULL 
rows: 4673 


Extra: Using index 


索引 覆盖 查询 还 有 很 多 陷阱 可 能 会 导致 无 法 实现 优化 。MySQL 查 
询 优化 器 会 在 执行 查询 前 判断 是 否 有 一 个 索引 能 进行 覆盖 。 假 设 索 引 
覆盖 了 WHERE 条 件 中 的 字段 ， 但 不 是 整个 查询 涉及 的 字段 。 如 果 条 
件 为 假 (false) ， MSR 5.5 和 更 早 的 版 本 也 总 是 会 回 表 获 取 数 据 
行 ， 尽 管 并 不 需要 这 一 行 且 最 终 会 被 过 滤 掉 。 


来 看 看 为 什么 会 发 生 这 样 的 情况 ， 以 及 如 何 重 写 查询 以 解决 该 间 
题 。 从 下 面 的 查询 开始 : 


mysql> EXPLAIN SELECT * FROM products WHERE actor='SEAN 
CARREY' 
-> AND title like '%APOLLO%'\G 


L KE KKK KEK KEK KEKE KEK KKK KEKE KEKE EE 1 row 
kkkkkkkkkkkkkkkkkkkkkkkkkxkk 
id: 1 


select_type: SIMPLE 


table: products 
type: ref 
possible_keys: ACTOR, IX_PROD_ACTOR 
key: ACTOR 
key_len: 52 
ref: const 
rows: 10 


Extra: Using where 
这 里 索引 无 法 覆盖 该 查询 ， 有 两 个 原因 : 


没有 任何 索引 能 够 覆盖 这 个 查询 。 因 为 查询 从 表 中 选择 了 所 有 的 
列 ， 而 没有 任何 索引 才 盖 了 所 有 的 列 。 不 过 ， 理 论 上 MySQL 还 有 
一 个 捷径 可 以 利用 : WHERE 条 件 中 的 列 是 有 索引 可 以 覆盖 的 ， 
因此 MySQL 可 以 使 用 该 索引 找到 对 应 的 actor 并 检查 tite 是 否 匹 
配 ， 过 滤 之 后 再 读 取 需 要 的 数据 行 。 

MySQL 不 能 在 索引 中 执行 LIKE 操 作 。 这 是 底层 存储 引擎 API 的 限 
制 ，MySQL 5.5 和 更 早 的 版 本 中 只 允许 在 索引 中 做 简单 比较 操作 
(例如 等 于 、 不 等 于 以 及 大 于 ) 。MySQL 能 在 索引 中 做 最 左前 绥 
匹配 的 LIKE 比 较 ， 因 为 该 操作 可 以 转换 为 简单 的 比较 操作 ， 但 是 
如 果 是 通配符 开头 的 LIKE 查 询 ， 存 储 引 擎 就 无 法 做 比较 匹配 。 这 
种 情况 下 ，MySQL 服 务 器 只 能 提取 数据 行 的 值 而 不 是 索引 值 来 做 
比较 。 


也 有 办 法 可 以 解决 上 面 说 的 两 个 问题 ， 需 要 重 写 查询 并 巧妙 地 设 


计 索 引 。 先 将 索引 扩展 至 覆盖 三 个 数据 列 (artist, title, prod_id) ， 
然后 按 如 下 方式 重 写 查 询 : 


mysql> EXPLAIN SELECT * 


-> FROM products 


-> JOIN ( 
-> SELECT prod_id 
-> FROM products 
-> WHERE actor='SEAN CARREY' AND title LIKE 
"%APOLLO%' 


-> ) AS t1 ON (t1.prod_id=products.prod_id)\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1. row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 1 
select_type: PRIMARY 
table: <derived2> 


,. .Omitted... 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 2. row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 1 
select_type: PRIMARY 
table: products 


...,omitted... 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 3. row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 2 
select_type: DERIVED 
table: products 


type: ref 


possible_keys: ACTOR, ACTOR_2, IX_PROD_ACTOR 


key: ACTOR_2 
key_len: 52 
ref: 
rows: 11 


Extra: Using where; Using index 


我 们 把 这 种 方式 叫做 延迟 关联 (deferred join) ， 因 为 延迟 了 对 列 
的 访问 。 在 查询 的 第 一 阶段 MySQL 可 以 使 用 覆盖 索引 ， 在 FROM 子 名 
的 子 查询 中 找到 匹配 的 prod_id， 然 后 根据 这 些 prod_id 值 在 外 层 查询 匹 
配 获 取 需 要 的 所 有 列 值 。 虽 然 无 法 使 用 索引 覆盖 整个 查询 ， 但 总 算 比 
完全 无 法 利用 索引 覆盖 的 好 。 


这 样 优化 的 效果 取决 于 WHERE 条 件 匹 配 返 回 的 行 数 。 假 设 这 个 
products 表 有 100 万 行 ， 我 们 来 看 一 下 上 面 两 个 查询 在 三 个 不 同 的 数据 
集 上 的 表现 ， 每 个 数据 集 都 包含 100 万 行 : 


1. 第 一 个 数据 集 ，Sean Carrey 出 演 了 30000 部 作品 ， 其 中 有 20000 部 
的 标题 中 包含 了 Apollo。 
2. 第 二 个 数据 集 ，Sean Carrey 出 演 了 30000 部 作品 ， 其 中 40 部 的 标题 
Mo 合 i 
第 三 个 数据 集 ，Sean Carrey 出 演 了 50 部 作品 ， 其 中 10 部 的 标题 中 
pr & Tf Apollo. 


使 用 上 面 的 三 种 数据 集 来 测试 两 种 不 同 的 查询 ， 得 到 的 结果 如 表 
5-2 所 示 。 


表 5-2: 索引 和 覆盖 查询 和 非 履 盖 查询 的 测试 结果 


数据 集 | 原 查 询 优化 后 的 查询 


下 面 是 对 结果 的 分 析 : 


在 示例 1 中 ， 查 询 返 回 了 一 个 很 大 的 结果 集 ， 因 此 看 不 到 优化 的 效 
果 。 大 部 分 时 间 都 花 在 读 取 和 发 送 数 据 上 了 。 

在 示例 2 中 ， 经 过 索引 过 滤 ， 尤 其 是 第 二 个 条 件 过 滤 后 只 返回 了 很 
少 的 结果 集 ， 优 化 的 效果 非常 明显 : 在 这 个 数据 集 上 性 能 提高 了 5 
倍 ,优化 后 的 查询 的 效率 主要 得 益 于 只 需要 读 取 40 行 完整 数据 行 ， 
而 不 是 原 查 询 中 需要 的 30000 行 。 

在 示例 3 中 ， 显 示 了 子 查 询 效 率 反 而 下 降 的 情况 。 因 为 索引 过 滤 时 
村 合 第 一 个 条 件 的 结果 集 已 经 很 小 ， 所 以 子 查询 带 来 的 成 本 反而 
比 从 表 中 直接 提取 完整 行 更 高 。 


在 大 多 数 存 储 引 擎 中 ， 覆 盖 索 引 只 能 覆盖 那些 只 访问 索引 中 部 分 
列 的 查询 。 不 过 ， 可 以 更 进一步 优化 mnoDB。 回 想 一 下 ，InnoDB 的 二 
级 索引 的 叶子 节点 都 包含 了 主键 的 值 ， 这 意味 着 InnoDB 的 二 级 索引 可 
以 有 效 地 利用 这 些 “ 额 外 ”的 主键 列 来 覆盖 查询 。 


例如 ，sakila.actor 使 用 InnoDB 存 储 引 擎 ， 并 在 last_name 字 段 有 二 
级 索引 ， 虽 然 该 索引 的 列 不 包括 主键 actor id， 但 也 能 够 用 于 对 


actor_id 做 覆盖 查询 : 


mysql> EXPLAIN SELECT actor_id, last_name 


-> FROM sakila.actor WHERE last_name = 'HOPPER'\G 


OO TOR IO TOR IO OR TOR IO RK I 1. row 
eT TET ETETETT eee ee eee ee eT 
id: 1 
select_type: SIMPLE 
table: actor 
type: ref 
possible_keys: idx_actor_last_name 
key: idx_actor_last_name 
key_len: 137 
ref: const 
rows: 2 


Extra: Using where; Using index 


未 来 MySQL 版 本 的 改进 


上 面 提 到 的 很 多 限制 都 是 由 于 存储 引擎 API 设 计 所 导致 的 ， 目 
前 的 API 设 计 不 允许 MySQL 将 过 滤 条 件 传 到 存储 引 警 层 。 如 果 
MySQL 在 后 续 版 本 能 够 做 到 这 一 点 ， 则 可 以 把 查询 发 送 到 数据 上 ， 
而 不 是 像 现 在 这 样 只 能 把 数据 从 存储 引擎 拉 到 服务 器 层 ， 再 根据 查 
询 条 件 过 滤 。 在 本 书写 作 之 际 ，MySQL 5.6 版 本 (未 正式 发 布 ) € 
含 了 在 存储 引擎 API 上 所 做 的 一 个 重要 的 改进 ， 其 被 称 为 “索引 条 件 
推送 (index condition pushdown) ”。 这 个 特性 将 大 大 改善 现在 的 查 
询 执 行 方式 ， 如 此 一 来 上 面 介 绍 的 很 多 技巧 也 就 不 再 需要 了 。 


5.3.7 ”使 用 索引 扫描 来 做 排序 


MySQL 有 两 种 方式 可 以 生成 有 序 的 结果 : 通过 排序 操作 ; 或 者 按 
索引 顺序 扫描 4);) 如 果 EXPLAIN 出 来 的 type 列 的 值 为 *index”， 则 说 明 
MySQL 使 用 了 索引 扫描 来 做 排序 (不 要 和 Extra 列 的 “Using index” tE 
Al) o 


扫 换 索引 本 身 是 很 快 的 ， 因 为 只 需要 从 一 条 索引 记录 移动 到 紧 接 
着 的 下 一 条 记录 。 但 如 果 索 引 不 能 履 盖 查询 所 需 的 全 部 列 ， 那 就 不 得 
不 每 扫描 一 条 索引 记录 就 都 回 表 查 询 一 次 对 应 的 行 。 这 基本 上 都 是 随 
机 WO， 因 此 按 索 引 顺 序 读 取 数据 的 速度 通常 要 比 顺序 地 全 表 扫 描 慢 ， 
尤其 是 在 W/O 密集 型 的 工作 负载 时 。 


MySQL 可 以 使 用 同一 个 索引 既 满足 排序 ， 又 用 于 查找 行 。 因 此 ， 
如 果 可 能 ， 设 计 索 引 时 应 该 尽 可 能 地 同时 满足 这 两 种 任务 ， 这 样 是 最 
好 的 。 


只 有 当 索 引 的 列 顺序 和 ORDER BY 子 句 的 顺序 完全 一 致 ， 并 且 所 
有 列 的 排序 方向 (倒序 或 正 序 ) 都 一 样 时 ，MySQL 才 能 够 使 用 索引 来 
对 结果 做 排序 ( 沪 。 如 果 查 询 需 要 关联 多 张 表 ， 则 只 有 当 ORDER BY 子 
句 引 用 的 字段 全 部 为 第 一 个 表 时 ， 才 能 使 用 索引 做 排序 。ORDER BY 
子 句 和 查找 型 查询 的 限制 是 一 样 的 : 需要 满足 索引 的 最 左前 缀 的 要 
R; 否则 ，MySQL 都 需要 执行 排序 操作 ， 而 无 法 利用 索引 排序 。 


有 一 种 情况 下 ORDER BY 子 句 可 以 不 满足 索引 的 最 左前 缀 的 要 
求 ， 就 是 前 导 列 为 常量 的 时 候 。 如 果 WHERE 子 句 或 者 JOIN 子 句 中 对 


这 些 列 指定 了 常量 ， 就 可 以 “弥补 ”索引 的 不 足 。 


例如 ，Sakila 示 例 数 据 库 的 表 rental 在 列 ( rental_date , 
inventory_id，customer_id) 上 有 名 为 rental_date 的 索引 。 


(rental_date, inventory_id, customer_id): 


CREATE TABLE rental ( 


PRIMARY KEY (rental_id), 
UNIQUE KEY rental_date 
(rental_date, inventory_id,customer_id), 
KEY idx_fk_inventory_id (inventory_id), 
KEY idx_fk_customer_id (customer_id), 


KEY idx_fk_staff_id (staff_id), 


); 


MySQL 可 以 使 用 rental_date 索 引 为 下 面 的 查询 做 排序 M 
EXPLAIN 中 可 以 看 到 没有 出 现 文件 排序 (filesort) 操作 Go): 


mysql> EXPLAIN SELECT rental id, staff_id FROM 
sakila.rental 
-> WHERE rental_date = '2005-05-25' 


-> ORDER BY inventory_id, customer_id\G 


和 1 row 


类 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


type: ref 
possible_keys: rental_date 
key: rental_date 
rows: 1 


Extra: Using where 


即使 ORDER BY 子 句 不 满足 索引 的 最 左前 缀 的 要 求 ， 也 可 以 用 于 
查询 排序 ， 这 是 因为 索引 的 第 一 列 被 指定 为 一 个 常数 。 


还 有 更 多 可 以 使 用 索引 做 排序 的 查询 示例 。 下 面 这 个 查询 可 以 利 
用 索引 排序 ， 是 因为 查询 为 索引 的 第 一 列 提供 了 常量 条 件 ， 而 使 用 第 
二 列 进 行 排序 ， 将 两 列 组 合 在 一 起 ， 就 形成 了 索引 的 最 左前 级 : 


. WHERE rental_date = '2005-05-25' ORDER BY inventory_id 


DESC; 


下 面 这 个 查询 也 没 问题 ， 因 为 ORDER BY 使 用 的 两 列 就 是 索引 的 


By AT BBR: 
下 面 是 一 些 不 能 使 用 索引 做 排序 的 查询 : 


。 下 面 这 个 查询 使 用 了 两 种 不 同 的 排序 方向 ， 但 是 索引 列 都 是 正 序 
排序 的 : 


. WHERE rental date = '2005-05-25' ORDER BY inventory_id 


DESC, customer_id ASC; 


。 下 面 这 个 查询 的 ORDER BY 子 句 中 引用 了 一 个 不 在 索引 中 的 列 : 


. WHERE rental_date='2005-05-25' ORDER BY inventory_id, 
staff_id; 


。 下 面 这 个 查询 在 索引 列 的 第 一 列 上 是 范围 条 件 ， 所 以 MySQL 无 法 
使 用 索引 的 其 余 列 : 


. WHERE rental_date > '2005-05-25' ORDER BY inventory_id, 


customer_id; 


。 这 个 查询 在 y inventory_id 列 上 有 多 个 等 于 条 件 。 对 于 排序 来 说 ， 
这 也 是 一 种 范围 查询 : 


WHERE rental date = '2005-05-25' AND inventory_id 
IN(1,2) ORDER BY customer_ 
id; 
下 面 这 个 个 论 
化 器 在 优化 时 将 film_. ty ee 
用 索引 : 


mysql> EXPLAIN SELECT actor id, title FROM sakila.film actor 
-> INNER JOIN sakila.film USING(Film . id) ORDER BY actor ae 

+------------ oe 
| table | Extra | 
+------------ 二- + 
| film | Using index; Using temporary; Using filesort | 
| film actor | Using index 

+------------ +-------------------------------------------- + 


使 用 索引 做 排序 的 一 个 最 重要 的 用 法 是 当 查 询 同 时 有 ORDER BY 
和 LIMIT 子 句 的 时 候 。 后 面 我 们 会 具体 介绍 这 些 内 容 。 


5.3.8 ”压缩 (前缀 压缩 ) 索引 


MyISAM 使 用 前 缀 压缩 来 减少 索引 的 大 小 ， 从 而 让 更 多 的 索引 可 
以 放 入 内 存 中 ， 这 在 某 些 情况 下 能 极 大 地 提高 性 能 。 默 认 只 压缩 字符 
串 ， 但 通过 参数 设置 也 可 以 对 整数 做 压缩 。MyISAM 压 缩 每 个 索引 块 
的 方法 是 ， 先 完全 保存 索引 块 中 的 第 一 个 值 ， 然 后 将 其 他 值 和 第 一 个 
值 进 行 比较 得 到 相同 前 缀 的 字 节 数 和 剩余 的 不 同 后缀 部 分 ， 把 这 部 分 
存储 起 来 即 可 。 例 如 ， 索 引 块 中 的 第 一 个 值 是 “perform”， 第 二 个 值 是 
“performance”， 那 么 第 二 个 值 的 前 弘 压 缩 后 存储 的 是 类 似 “7,ance” 这 样 
的 形式 。MyISAM 对 行 指针 也 采用 类 似 的 前 缀 压缩 方式 。 


压缩 块 使 用 更 少 的 空间 ， 代 价 是 某 些 操作 可 能 更 慢 。 因 为 每 个 值 
的 压缩 前 缀 都 依赖 前 面 的 值 ， 所 以 MyISAM 查 找 时 无 法 在 索引 块 使 用 
二 分 查找 而 只 能 从 头 开始 扫描 。 正 序 的 扫描 速度 还 不 错 ， 但 是 如 果 是 
倒序 扫描 一 一 例如 ORDER BY DESC 一 一 就 不 是 很 好 了 。 所 有 在 块 中 
查找 某 一 行 的 操作 平均 都 需要 扫描 半 个 索引 块 。 


测试 表明 ， 对 于 CPU 密集 型 应 用 ， 因 为 扫描 需要 随机 查找 ， 压 缩 
索引 使 得 MyISAM 在 索引 查找 上 要 慢 好 几 借 。 压 缩 索引 的 倒序 扫描 就 
更 慢 了 了。 压缩 索引 需要 在 CPU 内 存 资 源 与 磁盘 之 间 做 权衡 。 压 缩 索引 
可 能 只 需要 十 分 之 一 大 小 的 磁盘 空间 ， 如 果 是 IO 密集 型 应 用 ， 对 某 些 
查询 审 来 的 好 处 会 比 成 本 多 很 多 。 


可 以 在 CREATE TABLE 语 句 中 指定 PACK_KEYS 人 参数 来 控制 索引 
压缩 的 方式 。 


5.3.9” 宛 余 和 重复 索引 


MySQL 人 允许 在 相同 列 上 创建 多 个 索引 ， 无 论 是 有 意 的 还 是 无 意 
的 。MySQL 需 要 单独 维护 重复 的 索引 ， 并 且 优 化 器 在 优化 查询 的 时 候 
也 需要 逐个 地 进行 考虑 ， 这 会 影响 性 能 。 


重复 这 引 是 指 在 相同 的 列 上 按照 相同 的 顺序 创建 的 相同 类 型 的 索 
引 。 应 该 避免 这 样 创建 重复 索引 ， 发 现 以 后 也 应 该 立即 移 除 。 


有 时 会 在 不 经 意 间 创建 了 重复 索引 ,例如 下 面 的 代码 : 


CREATE TABLE test ( 
ID INT NOT NULL PRIMARY KEY, 
A INT NOT NULL, 
B INT NOT NULL, 
UNIQUE(ID), 
INDEX(ID) 


) ENGINE=InnoDB; 


一 个 经 验 不 足 的 用 户 可 能 是 想 创建 一 个 主键 ， 先 加 上 唯一 限制 ， 
然后 再 加 上 索引 以 供 查 询 使 用 。 事 实 上 ，MySQL 的 唯一 限制 和 主键 限 
制 都 是 通过 索引 实现 的 ， 因 此 ， 上 面 的 写法 实际 上 在 相同 的 列 上 创建 


了 三 个 重复 的 索引 。 通 常 并 没有 理由 这 样 做 ， 除 非 是 在 同一 列 上 创建 
不 同类 型 的 索引 来 满足 不 同 的 查询 需求 (6)。 


多余 索引 和 重复 索引 有 一 些 不 同 。 如 果 创 建 了 索引 (A, B), $ 
创建 索引 (A) 就 是 多余 索引 ， 因 为 这 只 是 前 一 个 索引 的 前 缀 索引 。 
因此 索引 (A, B) 也 可 以 当 作 索 引 (A) 来 使 用 (这 种 见 余 只 是 对 B- 
Tree 索引 来 说 的 ) 。 但 是 如 果 再 创建 索引 (B, A) ， 则 不 是 见 余 索 
引 ， 索 5 引 (B) 也 不 是 ， 因 为 B 不 是 索引 (A, B) 的 最 左前 缀 列 。 另 
外 ， 其 他 不 同类 型 的 索引 《例如 哈 希 索引 或 者 全 文 索 3 引 ) 也 不 会 是 B- 
Tree 索 引 的 匈 余 索 引 ， 而 无 论 覆 盖 的 索引 列 是 什么 。 


风 余 索引 通常 发 生 在 为 表 添 加 新 索引 的 时 候 。 例 如 ， 有 人 可 能 会 
增加 一 个 新 的 索引 (A, B) 而 不 是 扩展 已 有 的 索引 (A) 。 还 有 一 种 
情况 是 将 一 个 索引 扩展 为 《A，ID) ， 其 中 ID 是 主键 ， 对 于 InnoDB 来 
说 主键 列 已 经 包含 在 二 级 索引 中 了 ， 所 以 这 也 是 见 余 的 。 


大 多 数 情 况 下 都 不 需要 宛 余 索 引 ， 应 该 尽量 扩展 已 有 的 索引 而 不 
是 创建 新 索引 。 但 也 有 时 候 出 于 性 能 方面 的 考虑 需要 多余 索引 ， 因 为 
扩展 已 有 的 索引 会 导致 其 变 得 太 大 ， 从 而 影响 其 他 使 用 该 索引 的 查询 
的 性 能 。 


例如 ， 如 果 在 整数 列 上 有 一 个 索引 ， 现 在 需要 额外 增加 一 个 很 长 
的 VARCHAR 列 来 扩展 该 索引 ， 那 性 能 可 能 会 急剧 下 降 。 特 别 是 有 查 
询 把 这 个 索引 当 作 覆盖 索引 ， 或 者 这 是 MyISAM 表 并 且 有 很 多 范围 查 
询 (由 于 MyISAM 的 前 经 压缩 ) 的 时 候 。 


考虑 一 下 前 面 “在 InnoDB 中 按 主 键 顺序 插入 行 ” 一 节 提 到 的 userinfo 
表 。 这 个 表 有 1000000 行 ， 对 每 个 state_ id 值 大 概 有 20000 条 记录 。 在 


state_id 列 有 一 个 索引 对 下 面 的 查询 有 用 ， 假 设 查 询 名 为 Q1: 


mysql> SELECT count(*) FROM userinfo WHERE state_id=5; 


一 个 徐 单 的 测试 表明 该 查询 的 执行 速度 大 概 是 每 秒 115 次 
(QPS) 。 还 有 一 个 相关 查询 需要 检索 几 个 列 的 值 ， 而 不 是 只 统计 行 
数 ， 假 设 名 为 Q2: 


mysql> SELECT count(*) FROM userinfo WHERE state_id=5; 


对 于 这 个 查询 ， 测 试 结果 QPS 小 于 10(12。 提 升 该 查询 性 能 的 最 简 
单 办 法 就 是 扩展 索引 为 (state_id, city, address) ， 让 索引 能 覆盖 查 
询 : 


mysql> ALTER TABLE userinfo DROP KEY state_id, 


-> ADD KEY state_id 2 (state id, city, address); 


索引 扩展 后 ，Q2 运 行 得 更 快 了 ， 但 是 Q1 却 变 慢 了 。 如 果 我 们 想 让 
两 个 查询 都 变 得 更 快 ， 就 需要 两 个 索引 ， 尽 管 这 样 一 来 原来 的 单列 索 
引 是 见 余 的 了 。 表 5-3 显 示 这 两 个 查询 在 不 同 的 索引 策略 下 的 详细 结 
果 ， 分 别 使 用 MyISAM 和 InnoDB 人 存储 引擎 。 注 意 到 只 有 state_ id_2 索 引 
时 ，InnoDB5 引 擎 上 的 查询 Ql 的 性 能 下 降 并 不 明显 ， 这 是 因为 InnoDB 
没有 使 用 索引 压缩 。 


表 5-3: 使 用 不 同 索 引 策 略 的 SELECT 查 询 的 QPS 测 试 结果 


只 有 state id 只 有 state id 2 同时 有 state_id 和 state_id_2 


MyISAM, Q1 114.96 25.40 112.419 
MyISAM, Q2 9.97 16.34 16:37 
InnoDB, Q1 108.55 100.33 107.97 
InnoDB, Q02 12.12 28.04 28.06 


有 两 个 索 5| 的 缺点 是 索引 成 本 更 高 。 表 5-4 显 示 了 向 表 中 插入 100 
万 行 效 据 所 需要 的 时 间 。 


表 5-4: 在 使 用 不 同 索引 策略 时 插入 100 万 行 数据 的 速度 


只 有 state id ”同时 有 state_id 和 state_id_2 
InnoDB， 对 两 个 索引 都 有 足够 的 内 容 80 fb 136 fb 
MyISAM， 只 有 一 个 索引 有 足够 的 内 容 72 秒 470 # 


可 以 看 到 ， 表 中 的 索引 越 多 插入 速度 会 越 慢 。 一 般 来 说 ， 增 加 新 
索引 将 会 导致 INSERT、UPDATE、DELETE 等 操作 的 速度 变 慢 ， 特 别 
是 当 新 增 索 引 后 导致 达到 了 内 存 瓶 人 颈 的 时 候 。 解 决 元 余 索 引 和 重复 索 
引 的 方法 很 简单 ， 删 除 这 些 索引 就 可 以 ， 但 首先 要 做 的 是 找 出 这 样 的 
索引 。 可 以 通过 写 一 些 复杂 的 访问 INFORMATION_SCHEMA 表 的 查 
询 来 找 ， 不 过 还 有 两 个 更 简单 的 方法 。 可 使 用 Shlomi Noach 的 
common_schema 中 的 一 些 视图 来 定位 ，common_schema 是 一 系列 可 以 
安装 到 服务 器 上 的 常用 的 存储 和 视图 

(http://code.google.com/p/common-schema/) 。 这 上 比 自己 编写 查询 要 快 
而 且 简 单 。 另 外 也 可 以 使 用 Percona Toolkit 中 的 pt-duplicate-key- 
checker， 该 工具 通过 分 析 表 结构 来 找 出 元 余 和 重复 的 索引 。 对 于 大 型 
服务 器 来 说 ， 使 用 外 部 的 工具 可 能 更 合适 些 ;如果 服务 器 上 有 大 量 的 
数据 或 者 大 量 的 表 ， 查 询 INFORMATION_SCHEMA 表 可 能 会 导致 性 


Ak > 
能 问题 。 


在 决定 哪些 索引 可 以 被 删除 的 时 候 要 非常 小 心 。 回 忆 一 下 ， 在 前 
面 的 mnoDB 的 示例 表 中 ， 因 为 二 级 索引 的 叶子 节点 包含 了 主键 值 ， 所 
以 在 列 (A) 上 的 索引 就 相当 于 在 (A, D) 上 的 索引 。 如 果 有 像 
WHERE A=5 ORDER BY ID 这 样 的 查询 ， 这 个 索引 会 很 有 作用 。 但 如 
果 将 索引 扩展 为 (A，B) ， 则 实际 上 就 变 成 了 (A, B, ID) , BA 
上 面 查询 的 ORDER BY 子 句 就 无 法 使 用 该 索引 做 排序 ， 而 只 能 用 文件 
排序 了 。 所 以 ， 建 议 使 用 Percona 工 具 箱 中 的 ptupgrade 工 具 来 仔细 检 
查 计划 中 的 索引 变更 。 


5.3.10 “未 使 用 的 索引 


除了 宛 余 索引 和 重复 索引 ， 可 能 还 会 有 一 些 服务 器 永远 不 用 的 索 
引 。 这 样 的 索引 完全 是 累 费 ， 建 议 考 虑 删除 (8)。 有 两 个 工具 可 以 帮助 
定位 未 使 用 的 索引 。 最 简单 有 效 的 办 法 是 在 Percona Server 或 者 
MariaDB 中 先 打 开 userstates 服 务 器 变量 (默认 是 关闭 的 ) ， 然 后 让 服 
务 器 正常 运行 一 段 时 间 ， 再 通过 查询 
INFORMATION_SCHEMA.INDEX_STATISTICS 就 能 查 到 每 个 索引 的 
使 用 频率 。 


另外 ， 还 可 以 使 用 Percona Toolkit 中 的 pt-index-usage， 该 工具 可 以 
读 取 查 询 日 志 ， 并 对 日 志 中 的 每 条 查询 进行 EXPLAIN 操 作 ， 然 后 打印 
出 天 于 索引 和 碍 询 的 报告 。 这 个 工具 不 仅 可 以 找 出 哪些 索引 是 未 使 用 
的 ， 还 可 以 了 解 查询 的 执行 计划 一 一 例如 在 某 些 情况 有 些 类 似 的 查询 
的 执行 方式 不 一 样 ， 这 可 以 帮助 你 定位 到 那些 偶尔 服务 质量 差 的 查 
询 ， 优 化 它们 以 得 到 一 致 的 性 能 表现 。 该 工具 也 可 以 将 结果 写 入 到 
MySQL 的 表 中 ， 方 便 查 询 结 果 。 


5.3.11 ”索引 和 锁 


索引 可 以 让 碍 询 锁定 更 少 的 行 。 如 果 你 的 查询 从 不 访问 那些 不 需 
要 的 行 ， 那 么 就 会 锁定 更 少 的 行 ， 从 两 个 方面 来 看 这 对 性 能 都 有 好 
处 。 首 先 ， 昌 然 innoDB 的 行 锁 效 率 很 高 ， 内 存 使 用 也 很 少 ， 但 是 锁定 
行 的 时 候 仍 然 会 带 来 额外 开销 ; 其 次 ， 锁 定 超过 需要 的 行 会 增加 锁 争 
用 并 减少 并 发 性 。 


InnoDB 只 有 在 访问 行 的 时 候 才 会 对 其 加 锁 ， 而 索引 和 能够 减少 
InnoDB 访 问 的 行 数 ， 从 而 减少 锁 的 数量 。 但 这 只 有 当 InnoDB 在 存储 引 
擎 层 能 够 过 滤 掉 所 有 不 需要 的 行 时 才 有 效 。 如 果 索 引 无 法 过 滤 掉 无 效 
的 行 ， 那 么 在 InnoDB 检 索 到 数据 并 返回 给 服务 器 层 以 后 ，MySQL 服 务 
器 才能 应 用 WHERE 子 名 下 )。 这 时 已 经 无 法 避免 锁定 行 了 : InnoDB 已 
经 锁 住 了 这 些 行 ， 到 适当 的 时 候 才 释放 。 在 MySQL 5.1 和 更 新 的 版 本 
中 ，InoDB 可 以 在 服务 器 端 过 滤 掉 行 后 就 释放 锁 ， 但 是 在 早期 的 
MySQL 版 本 中 ，InnoDB 只 有 在 事务 提交 后 才能 释放 锁 。 


通过 下 面 的 例子 再 次 使 用 效 据 库 Sakila 很 好 地 解释 了 这 些 情况 : 


mysql> SET AUTOCOMMIT=0; 
mysql> BEGIN; 
mysql> SELECT actor_id FROM sakila.actor WHERE actor_id < 5 


-> AND actor_id <> 1 FOR UPDATE; 


这 条 查询 仅仅 会 返回 2 一 4 之 间 的 行 ， 但 是 实际 上 获取 了 1 一 4 之 间 
的 行 的 排他 锁 。InnoDB 会 锁 住 第 1 行 ， 这 是 因为 MySQL 为 该 查询 选择 
的 执行 计划 是 索引 沱 围 扫 描 : 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 
-> WHERE actor_id < 5 AND actor_id <> 1 FOR UPDATE; 


+----+------------- +------- +------- +--------- +-------------------------- 十 
| id | select type | table | type | key | Extra | 
+----+------------- +------- +------- +--------- +-------------------------- 十 
| 1 | SIMPLE | actor | range | PRIMARY | Using where; Using index | 
+----+------------- +------- +------- +--------- +-------------------------- 十 


换 名 话说， 底层 存储 引擎 的 操作 是 “从 索引 的 开头 开始 获取 满足 条 
件 actor_id<5 的 记录 ”， 服 务 器 并 没有 告诉 mnoDB 可 以 过 滤 第 1 行 的 
WHERE 和 条件。 注意 到 EXPLAIN 的 Extra 列 出 现 了 “Using where”， 这 表 
示 MySQL 服 务 器 将 存储 引擎 返回 行 以 后 再 应 用 WHERE 过 滤 条 件 。 


下 面 的 第 二 个 查询 就 能 证 明 第 1 行 确实 已 经 被 锁定 ， 尽 管 第 一 个 查 
询 的 结果 中 并 没有 这 个 第 1 行 。 保 持 第 一 个 连接 打开 ， 然 后 开启 第 二 个 
连接 并 执行 如 下 查询 : 


mysql> SET AUTOCOMMIT=0; 

mysql> BEGIN; 

mysql> SELECT actor_id FROM sakila.actor WHERE actor_id = 1 
FOR UPDATE; 


这 个 查询 将 会 挂 起 ， 直 到 第 一 个 事务 释放 第 1 行 的 锁 。 这 个 行为 对 
于 基于 语句 的 复制 (将 在 第 10 章 讨论 ) 的 正常 运行 来 说 是 必要 的 。C20) 


就 像 这 个 例子 显示 的 ， 即 使 使 用 了 索引 ，InnoDB 也 可 能 锁 住 一 些 
不 需要 的 数据 。 如 果 不 能 使 用 索引 查找 和 锁定 行 的 话 问题 可 能 会 更 糟 
糕 ，MySQL 会 做 全 表 扫 描 并 锁 住 所 有 的 行 ， 而 不 管 是 不 是 需要 。 


关于 InnoDB、 索 引 和 锁 有 一 些 很 少 有 人 知道 的 细节 : InnoDB 在 二 
级 索引 上 使 用 共享 GE) 锁 ， 但 访问 主键 索引 需要 排他 〈 写 ) Mo X 
消除 了 使 用 覆盖 索引 的 可 能 性 ， 并 且 使 得 SELECT FOR UPDATE 比 
LOCK IN SHARE MODE 或 非 锁定 查询 要 慢 很 多 。 


5.4 索引 案例 学 习 


理解 索引 最 好 的 办 法 是 结合 示例 ， 所 以 这 里 准备 了 一 个 索引 的 案 
例 。 


假设 要 设计 一 个 在 线 约会 网 站 ， 用 户 信息 表 有 很 多 列 ， 包 括 国 
家 、 地 区 、 城 市 、 性 别 、 眼 睛 颜色 ， 等 等 。 网 站 必须 支持 上 面 这 些 特 
征 的 各 种 组 合 来 搜索 用 户 ， 还 必须 允许 根据 用 户 的 最 后 在 线 时 间 、 其 
他 会 员 对 用 户 的 评分 等 对 用 户 进行 排序 并 对 结果 进行 限制 。 如 何 设计 
索引 满足 上 面 的 复杂 需求 呢 ? 


出 人 意料 的 是 第 一 件 需 要 考虑 的 事情 是 需要 使 用 索引 来 排序 ， 还 
是 先 检索 数据 再 排序 。 使 用 索引 排序 会 严格 限制 索引 和 查询 的 设计 。 
例如 ， 如 果 希 望 使 用 索引 做 根据 其 他 会 员 对 用 户 的 评分 的 排序 ， 则 
WHERE 条 件 中 的 age BETWEEN 18 AND 25 就 无 法 使 用 索引 。 如 果 


MySQL 使 用 某 个 索引 进行 范围 查询 ， 也 就 无 法 再 使 用 另 一 个 索引 (或 
者 是 该 索引 的 后 续 字 段 ) 进行 排序 了 。 如 果 这 是 很 常见 的 WHERE 条 
件 ， 那 么 我 们 当然 就 会 认为 很 多 查询 需要 做 排序 操作 (例如 文件 排序 


filesort) 。 


5.4.1 ”支持 多 种 过 滤 条 件 


现在 需要 看 看 哪些 列 拥有 很 多 不 同 的 取 值 ， 哪 些 列 在 WHERE 子 
句 中 出 现 得 最 频 每 。 在 有 更 多 不 同 值 的 询 上 创建 察 引 的 选择 性 会 更 
好 。 一 般 来 说 这 样 做 都 是 对 的 ， 因 为 可 以 让 MySQL 更 有 效 地 过 滤 掉 不 
需要 的 行 。 


country 列 的 选择 性 通常 不 高 ， 但 可 能 很 多 查询 都 会 用 到 。sex 列 的 
选择 性 肯定 很 低 ， 但 也 会 在 很 多 查询 中 用 到 。 所 以 考虑 到 使 用 的 频 
率 ， 还 是 建议 在 创建 不 同 组 合 索 引 的 时 候 将 (sex, country) 列 作为 前 


AR 
级 O 


但 根据 传统 的 经 验 不 是 说 不 应 该 在 选择 性 低 的 列 上 创建 索引 的 
吗 ? 那 为 什么 这 里 要 将 两 个 选择 性 都 很 低 的 字段 作为 索引 的 前 级 列 ? 我 
们 的 脑子 坏 了 ? 


我 们 的 脑子 当然 没 坏 。 这 么 做 有 两 个 理由 : 第 一 点 ， 如 前 所 述 几 
乎 所 有 的 查询 都 会 用 到 sex 列 。 前 面 曾 提 到 ， 几 乎 每 一 个 查询 都 会 用 到 
sex 列 ， 甚 至 会 把 网 站 设计 成 每 次 都 只 能 按 某 一 种 性 别 搜索 用 户 。 更 重 
要 的 一 点 是 ， 索 引 中 加 上 这 一 列 也 没有 坏处 ， 即 使 查询 没有 使 用 sex 列 
也 可 以 通过 下 面 的 “诀窍 ” 绕 过 。 


这 个 “诀窍 ?就 是 : 如 果 某 个 查询 不 限制 性 别 ， 那 么 可 以 通过 在 查 
询 条 件 中 新 增 AND SEX IN (m'f) 来 让 MySQL 选 择 该 索引 。 这 样 写 
并 不 会 过 滤 任何 行 ， 和 没有 这 个 条 件 时 返回 的 结果 相同 。 但 是 必须 加 
上 这 个 列 的 条 件 ，MySQL 才 能 够 匹配 索引 的 最 左前 缀 。 这 个 “诀窍 ”在 
这 类 场景 中 非常 有 效 ， 但 如 果 列 有 太 多 不 同 的 值 ， 就 会 让 INO 列 表 太 
长 ， 这 样 做 就 不 行 了 。 


这 个 案例 显示 了 一 个 基本 原则 : 考虑 表 上 所 有 的 选项 。 当 设计 索 
引 时 ， 不 要 只 为 现 有 的 查询 考虑 需要 哪些 床 引 ， 还 需要 考虑 对 查询 进 
行 优化 。 如 果 发 现 某 些 查询 需要 创建 新 索引 ， 但 是 这 个 索引 又 会 降低 
另 一 些 查 询 的 效率 ， 那 么 应 该 想 一 下 是 否 能 优化 原来 的 查询 。 应 该 同 
时 优化 碍 询 和 索引 以 找到 最 佳 的 平衡 ， 而 不 是 闭门造车 去 设计 最 完 
的 索引 。 


接 下 来 ， 需 要 考虑 其 他 常见 WHERE 条 件 的 组 合 ， 并 需要 了 解 哪 
些 组 合 在 没有 合适 索引 的 情况 下 会 很 慢 。 (sex, country, age) 上 的 
索引 就 是 一 个 很 明显 的 选择 ， 另 外 很 有 可 能 还 需要 (sex, country, 
region, age) 和 (sex, country, region, city, age) 这 样 的 组 合 索 
51. 


这 样 就 会 需要 大 量 的 索引 。 如 果 想 尽 可 能 重用 索引 而 不 是 建立 大 
量 的 组 合 索 引 ， 可 以 使 用 前 面 提 到 的 INO 的 技巧 来 避免 同时 需要 
(sex, country, age) 和 (sex, country, region, age) 的 索引 。 如 果 
没有 指定 这 个 字段 搜索 ， 就 需要 定义 一 个 全 部 国家 列表 ， 或 者 国家 的 
全 部 地 区 列表 ， 来 确保 索引 前 缀 有 同样 的 约束 (组 合 所 有 国家 、 地 
区 、 人 性 别 将 会 是 一 个 非常 大 的 条 件 ) 。 


这 些 索引 将 满足 大 部 分 最 常见 的 搜索 查询 ， 但 是 如 何 为 一 些 生 个 
的 搜索 条 件 (比如 has_pictures、eye_color、hair_color 和 education) 来 
设计 索引 呢 ? 这 些 列 的 选择 性 高 、 使 用 也 不 频繁 ， 可 以 选择 忽略 它 
们 ， 让 MySQL 多 扫描 一 些 额外 的 行 即 可 。 另 一 个 可 选 的 方法 是 在 age 
列 的 前 面 加 上 这 些 列 ， 在 查询 时 使 用 前 面 提 到 过 的 INO 技 术 来 处 理 搜 
索 时 没有 指定 这 些 列 的 场景 。 


你 可 能 已 经 注意 到 了 ， 我 们 一 直 将 age 列 放 在 索引 的 最 后 面 。age 
列 有 什么 特殊 的 地 方 吗 ? 为 什么 要 放 在 索引 的 最 后 ?我 们 总 是 尽 可 能 
让 MySQL 使 用 更 多 的 索引 列 ， 因 为 查询 只 能 使 用 索引 的 最 左前 级 ， 直 
到 遇 到 第 一 个 范围 条 件 列 。 前 面 提 到 的 列 在 WHERE 子 句 中 都 是 等 于 
条 件 ， 但 是 age 列 则 多 半 是 范围 查询 (例如 查找 年 龄 在 18~25 岁 之 间 的 
人 ) 。 


当然 ， 也 可 以 使 用 INO 来 代替 范围 查询 ， 例 如 年 龄 条 件 改 写 为 IN 
(18, 19, 20, 21, 22, 23, 24, 25) ， 但 不 是 所 有 的 范围 查询 都 可 
以 转换 。 这 里 描述 的 基本 原则 是 ， 尽 可 能 将 需要 做 范围 查询 的 列 放 到 
索引 的 后 面 ， 以 便 优化 器 能 使 用 尽 可 能 多 的 索引 列 。 


前 面 提 到 可 以 在 索引 中 加 入 更 多 的 列 ， 并 通过 IN() 的 方式 覆盖 那 
些 不 在 WHERE 子 句 中 的 列 。 但 这 种 技巧 也 不 能 滥用 ， 否 则 可 能 会 带 
来 麻烦 。 因 为 每 额外 增加 一 个 INO 条 件 ， 优 化 器 需要 做 的 组 合 都 将 以 
指数 形式 增加 ， 最 终 可 能 会 极 大 地 降低 查询 性 能 。 考 虑 下 面 的 
WHERE 子 句 : 


WHERE eye_color IN('brown', 'blue', 'hazel') 


AND hair_color IN('black', 'red', 'blonde', 'brown' ) 


AND sex IN('M', 'F') 


优化 器 则 会 转化 成 4x3x2=24 种 组 合 ， 执 行 计 划 需 要 检查 WHERE 
子 句 中 所 有 的 24 种 组 合 。 对 于 MySQL 来 说 ，24 种 组 合并 不 是 很 夸张 ， 
但 如 果 组 合 数 达到 上 千 个 则 需要 特别 小 心 。 老 版 本 的 MySQL 在 INO 组 
合 条 件 过 多 的 时 候 会 有 很 多 问题 。 查 询 优 化 可 能 需要 花 很 多 时 间 ， 并 
消耗 大 量 的 内 存 。 新 版 本 的 MySQL 在 组 合 数 超过 一 定数 量 后 就 不 再 进 
行 执行 计划 评估 了 ， 这 可 能 会 导致 MySQL 不 能 很 好 地 利用 索引 。 


5.4.2 ”避免 多 个 范围 条 件 


Avoiding Multiple Range Conditions 


假设 我 们 有 一 个 last_online 列 并 希望 通过 下 面 的 查询 显示 在 过 去 几 
周 上 线 过 的 用 户 : 


WHERE eye_color IN('brown', 'blue', 'hazel') 


AN 


iw] 


hair_color IN('black', 'red', 'blonde', 'brown' ) 
AND sex IN('M', 'F') 
AND last_online > DATE_SUB(NOW(), INTERVAL 7 DAY) 


AND age BETWEEN 18 AND 25 


什么 是 范围 条 件 ? 


从 EXPLAIN 的 输出 很 难 区 分 MySQL 是 要 查询 范围 值 ， 还 是 查 
询 列 表 值 。EXPLAIN 使 用 同样 的 词 “range” 来 描述 这 两 种 情况 。 例 


如 ， 从 type 列 来 看 ，MySQL 会 把 下 面 这 种 查询 当 作 是 “range 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 


-> WHERE actor id > 45\G 


炎炎 炎炎 类 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 


eet Te ee Tee ee ee Te Te 
id: 1 
select_type: SIMPLE 
table: actor 


type: range 


但 是 下 面 这 条 碍 询 呢 ? 


mysql> EXPLAIN SELECT actor_id FROM sakila.actor 


-> WHERE actor_id IN(1, 4, 99)\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 1 


eet ere ee Tee ee Te Te Te 
id: 1 
select_type: SIMPLE 
table: actor 


type: range 


”类 型 : 


row 


row 


从 EXPLAIN 的 结果 是 无 法 区 分 这 两 者 的 ， 但 可 以 从 值 的 范围 和 
多 个 等 于 条 件 来 得 出 不 同 。 在 我 们 看 来 ， 第 二 个 查询 就 是 多 个 等 值 


条 件 查 询 。 


我 们 不 是 挑剔 : 这 两 种 访问 效率 是 不 同 的 。 对 于 范围 条 件 查 
询 ，MySQL 无 法 再 使 用 沁 围 列 后 面 的 其 他 索引 列 了 ， 但 是 对 于 “多 
个 等 值 条 件 查询 ” 则 没有 这 个 限制 。 


这 个 查询 有 一 个 问题 : 它 有 两 个 范围 条 件 ，last_online 列 和 age 
列 ，MySQL 可 以 使 用 last_online 列 索引 或 者 age 列 索 引 ， 但 无 法 同时 使 
用 它们 。 


如 果 条 件 中 只 有 last_online 而 没有 age， 那 么 我 们 可 能 考虑 在 索引 
的 后 面 加 上 last_online 列 。 这 里 考虑 如 果 我 们 无 法 把 age 字段 转换 为 一 
个 INO 的 列表 ， 并 且 仍 要 求 对 于 同时 有 1last_online 和 age 这 两 个 维度 的 范 
围 碍 询 的 速度 很 快 ， 那 该 怎么 办 ?答案 是 ， 很 遗憾 没有 一 个 直接 的 办 法 
能 够 解决 这 个 问题 。 但 是 我 们 能 够 将 其 中 的 一 个 范围 查询 转换 为 一 个 
简单 的 等 值 比较 。 为 了 实现 这 一 点 ， 我 们 需要 事先 计算 好 一 个 active 
列 ， 这 个 字段 由 定时 任务 来 维护 。 当 用 户 每 次 登录 时 ， 将 对 应 值 设置 
为 1， 并 且 将 过 去 连续 七 天 未 曾 登录 的 用 户 的 值 设置 为 0。 


这 个 方法 可 以 让 MySQL 使 用 (active, sex, country, age) 索引 。 
active 列 并 不 是 完全 精确 的 ， 但 是 对 于 这 类 查询 来 说 ， 对 精度 的 要 求 也 
没有 那么 高 。 如 果 需 要 精确 数据 ， 可 以 把 last_online 列 放 到 WHERE 子 
句 ， 但 不 加 入 到 索引 中 。 这 和 本 章 前 面 通过 计算 URL 哈 希 值 来 实现 
UREL 的 快速 查找 类 似 。 所 以 这 个 查询 条 件 没 法 使 用 任何 索引 ， 但 因为 
这 个 条 件 的 过 滤 性 不 高 ， 即 使 在 索引 中 加 入 该 列 也 没有 太 大 的 帮助 。 
换个 角度 来 说 ， 缺 乏 合适 的 索引 对 该 查询 的 影响 也 不 明显 。 


到 目前 为 止 ， 我 们 可 以 看 到 : 如 果 用 户 希 望 同 时 看 到 活跃 和 不 活 
跃 的 用 户 ， 可 以 在 查询 中 使 用 INO 列 表 。 我 们 已 经 加 入 了 很 多 这 样 的 
列表 ， 但 另外 一 个 可 选 的 方案 就 只 能 是 为 不 同 的 组 合 列 创建 单独 的 索 
引 。 至 少 需要 建立 如 下 的 索引 : (active, sex, country, age) ， 

(active, country, age) , (sex, country, age) 和 (country, 
age) 。 这 些 索 引 对 某 个 具体 的 查询 来 说 可 能 都 是 更 优化 的 ， 但 是 考虑 
到 索引 的 维护 和 额外 的 空间 占用 的 代价 ， 这 个 可 选 方 案 就 不 是 一 个 好 
策略 了 。 


在 这 个 案例 中 ， 优 化 器 的 特性 是 影响 索引 策略 的 一 个 很 重要 的 因 
素 。 如 果 未 来 版 本 的 MySQL 能 够 实现 松散 索引 扫描 ， 就 能 在 一 个 索引 
上 使 用 多 个 范围 条 件 ， 那 也 就 不 需要 为 上 面 考 虑 的 这 类 查询 使 用 IN() 
列表 了 。 


5.4.3 ”优化 排序 


在 这 个 学 习 案例 中 ， 最 后 要 介绍 的 是 排序 。 使 用 文件 排序 对 小 数 
据 集 是 很 快 的， 但 如 果 一 个 查询 匹配 的 结果 有 上 上 百 万 行 的 话 会 怎样 ? 
例如 如 果 WHERE 子 句 只 有 sex 列 ， 如 何 排 序 ? 


对 于 那些 选择 性 非常 低 的 列 ， 可 以 增加 一 些 特殊 的 索引 来 做 排 
序 。 例 如 ， 可 以 创建 (sex，rating) 索引 用 于 下 面 的 查询 : 


mysql> SELECT<cols> FROM profiles WHERE sex='M' ORDER BY 


rating LIMIT 10; 


这 个 查询 同时 使 用 了 ORDER BY 和 LIMIT， 如 果 没 有 索引 的 话 会 
很 慢 。 


即使 有 索引 ， 如 果 用 户 界 面 上 需要 翻 页 ， 并 且 翻 页 翻 到 比较 靠 后 
时 查询 也 可 能 非常 慢 。 下 面 这 个 查询 就 通过 ORDER BY 和 LIMIT 偏 移 
量 的 组 合 翻 页 到 很 后 面 的 时 候 : 


mysql> SELECT<cols> FROM profiles WHERE sex='M' ORDER BY 


rating LIMIT 100000; 10; 


无 论 如 何 创建 索引 ， 这 种 查询 都 是 个 严重 的 问题 。 因 为 随 着 偏 移 
量 的 增加 ，MySQL 需 要 花费 大 量 的 时 间 来 扫描 需要 丢弃 的 数据 。 反 范 
式 化 、 预 先 计算 和 缓存 可 能 是 解决 这 类 查询 的 仅 有 策略 。 一 个 更 好 的 
办 法 是 限制 用 户 能 够 翻 页 的 数量 ， 实 际 上 这 对 用 户 体验 的 影响 不 大 ， 
因为 用 户 很 少 会 真正 在 乎 搜索 结果 的 第 10000 页 。 


优化 这 类 索引 的 另 一 个 比较 好 的 策略 是 使 用 延迟 关联， 通过 使 用 
覆盖 索引 查询 返回 需要 的 主键 ,再 根据 这 些 主键 关联 原 表 获得 需要 的 
行 。 这 可 以 减少 MySQL 扫 描 那 些 需要 丢弃 的 行 数 。 下 面 这 个 查询 显示 
了 如 何 高 效 地 使 用 (sex，rating) 索引 进行 排序 和 分 页 : 


mysql> SELECT <cols> FROM profiles INNER JOIN ( 
-> SELECT <primary key cols> FROM profiles 
-> WHERE x.sex='M' ORDER BY rating LIMIT 100000, 10 


-> ) AS x USING(<primary key cols>); 


5.5 ”维护 索引 和 表 


即使 用 正确 的 类 型 创建 了 表 并 加 上 了 合适 的 索引 ， 工 作 也 没有 结 
束 : 还 需要 维护 表 和 索引 来 确保 它们 都 正音 工作 。 维 护 表 有 三 个 主要 
的 目的 : 找到 并 修复 损坏 的 表 ， 维 护 准确 的 索引 统计 信息 ， 减 少 碎 
Fo 


5.5.1 ”找到 并 修复 损坏 的 表 


表 损 坏 (corruption) 是 很 糟糕 的 事情 。 对 于 MyISAM 存 储 引 擎 ， 
表 损 坏 通 常 是 系统 衣 演 导致 的 。 其 他 的 引擎 也 会 由 于 硬件 问题 、 
MySQL 本 身 的 缺陷 或 者 操作 系统 的 问题 导致 达 引 损坏 。 


损坏 的 索引 会 导致 查询 返回 错误 的 结果 或 者 莫须有 的 主键 冲突 等 
问题 ， 严 重 时 甚至 还 会 导致 数据 库 的 骨 溃 。 如 果 你 遇 到 了 古怪 的 问题 
一 一 例如 一 些 不 应 该 发 生 的 错误 一 一 可 以 尝试 运行 CHECK TABLE 
今 查 是 否 发 生 了 表 损 坏 (注意 有 些 存储 引擎 不 支持 该 命令 ;而 有 些 引 
擎 则 支持 以 不 同 的 选项 来 控制 完全 检查 表 的 方式 ) 。CHECK TABLE 
通常 能 够 找 出 大 多 数 的 表 和 索引 的 错误 。 


可 以 使 用 REPAIR TABLE 命 令 来 修复 损坏 的 表 ， 但 同样 不 是 所 有 
的 存储 引擎 都 支持 该 命令 。 如 果 存 储 引 擎 不 支持 ， 也 可 通过 一 个 不 做 
任何 操作 (no-op) 的 ALTER 操 作 来 重建 表 ， 例 如 修改 表 的 存储 引擎 为 
当前 的 引擎 。 下 面 是 一 个 针对 InnoDB 表 的 例子 : 


mysql> ALTER TABLE innodb_tbl ENGINE=INNODB; 


此 外 ， 也 可 以 使 用 一 些 存 储 引 擎 相关 的 离线 工具 ， 例 如 
myisamchk; 或 者 将 数据 导出 一 份 ， 然 后 再 重新 导入 。 不 过 ， 如 果 损 坏 
的 是 系统 区 域 ， 或 者 是 表 的 “ 行 数据 ”区 域 ， 而 不 是 索引 ， 那 么 上 面 的 
办 法 就 没有 用 了 。 在 这 种 情况 下 ， 可 以 从 备份 中 恢复 表 ， 或 者 尝试 从 
损坏 的 数据 文件 中 尽 可 能 地 恢复 数据 。 


如 果 InnoDB 引 擎 的 表 出 现 了 损坏 ， 那 么 一 定 是 发 生 了 严重 的 错 
误 ， 需 要 立刻 调查 一 下 原因 。InnoDB 一 般 不 会 出 现 损坏 。InnoDB 的 设 
计 保 证 了 它 并 不 容易 被 损坏 。 如 果 发 生 损 坏 ， 一 般 要 么 是 数据 库 的 硬 
件 问 题 例如 内 存 或 者 磁盘 问题 《有 可 能 ) ， 要 么 是 由 于 数据 库 管 理 员 
的 错误 例如 在 MySQL 外 部 操作 了 数据 文件 (有 可 能 ， 抑 或 是 mnoDB 
本 身 的 缺陷 (不 太 可 能 ) 。 常 见 的 类 似 错误 通常 是 由 于 尝试 使 用 rsync 
备份 InnoDB 导 致 的 。 不 存在 什么 查询 能 够 让 InnoDB 表 损坏 ， 也 不 用 担 
心 暗 处 有 “陷阱 ”>。 如 果 某 条 查询 导致 InnoDB 数 据 的 损坏 ， 那 一 定 是 i 
到 了 bug， 而 不 是 查询 的 问题 。 


如 果 遇 到 数据 损坏 ， 最 重要 的 是 找 出 是 什么 导致 了 损坏 ， 而 不 只 
是 简单 地 修复 ， 否 则 很 有 可 能 还 会 不 断 地 损坏 。 可 以 通过 设置 
innodb_force_recovery 参 数 进 入 InnoDB 的 强制 恢复 模式 来 修复 数据 ， 
更 多 细节 可 以 参考 MySQL 手 册 。 另 外 ， 还 可 以 使 用 开源 的 InnoDB 数 据 
恢复 工具 箱 (InnoDB Data Recovery Toolkit) 直接 从 InnoDB 数 据 文件 
恢复 出 数据 (下 载 地 址 : http:/www.percona.com/software/mysql-innodb- 


data-recovery-tools/) o 


5.5.2 ”更 新 索引 统计 信息 


MySQL 的 查询 优化 器 会 通过 两 个 API 来 了 解 存储 引擎 的 索引 值 的 
分 布 信息 ， 以 决定 如 何 使 用 索引 。 第 一 个 API 是 records_in_range()， 通 
过 向 存储 引擎 传 入 两 个 边界 值 获取 在 这 个 范围 大 概 有 多 少 条 记录 。 对 
于 荣 些 存储 引擎 ， 该 接口 返回 精确 值 ， 例 如 MyISAM; 但 对 于 另 一 些 
存储 引擎 则 是 一 个 估算 值 ， 例 如 InnoDB。 


第 二 个 API 是 info0 ， 该 接口 返回 各 种 类 型 的 数据 ， 包 括 索 引 的 基 
数 《每 个 键 值 有 多 少 条 记录 ) 。 


如 果 存 储 引 擎 向 优化 器 提供 的 扫描 行 数 信 息 是 不 准确 的 数据 ， 或 
者 执行 计划 本 身 太 复杂 以 致 无 法 准确 地 获取 各 个 阶段 匹配 的 行 数 ， 那 
么 优化 器 会 使 用 索引 统计 信息 来 估算 扫描 行 数 。MySQL 优 化 器 使 用 的 
是 基于 成 本 的 模型 ， 而 衡量 成 本 的 主要 指标 就 是 一 个 查询 需要 扫描 多 
少 行 。 如 果 表 没有 统计 信息 ， 或 者 统计 信息 不 准确 ， 优 化 器 就 很 有 可 
能 做 出 错误 的 决定 。 可 以 通过 运行 ANALYZE TABLE 来 重新 生成 统计 
信息 解决 这 个 问题 。 


每 种 存储 引擎 实现 索引 统计 信息 的 方式 不 同 ， 所 以 需要 进行 
ANALYZE TABLE 的 频率 也 因 不 同 的 引擎 而 不 同 ， 每 次 运行 的 成 本 也 
不 同 : 


。 Memory 引 擎 根本 不 存储 索引 统计 信息 。 

。 MyISAM 将 索引 统计 信息 存储 在 磁盘 中 ，ANALYZE TABLE 需 要 
进行 一 次 全 索引 扫描 来 计算 索引 基数 。 在 整个 过 程 中 需要 锁 表 。 

e 直到 MySQL 5.5 版 本 ，InnoDB 也 不 在 磁盘 存储 索引 统计 信息 ， 而 
是 通过 随机 的 索 y 引 访问 进行 评估 并 将 其 存储 在 内 存 中 。 


ae A 
Aap R 


可 以 使 用 SHOW INDEX FROM 来 查看 索引 的 基数 


(Cardinality) 。 例 如 : 


mysql> SHOW INDEX FROM sakila.actor\G 


RRO TOR IO IO TOR II TO TO KK RICK 1. row 
ROO TOR IO IO TOR IR ITO TOR RK RIK 
Table: actor 
Non_unique: 0 
Key_name: PRIMARY 
Seq_in_index: 1 
Column_name: actor_id 
Collation: A 
Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 
Comment: 
ere Te Te ee Te ee ee eee ee eT 2. row 


大 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 


Table: 


Non_unique: 


actor 


1 


Key_name: idx_actor_last_name 
Seq_in_index: 1 
Column_name: last_name 
Collation: A 


Cardinality: 200 
Sub_part: NULL 
Packed: NULL 
Null: 
Index_type: BTREE 


Comment: 


这 个 命令 输出 了 很 多 关于 索引 的 信息 ， 在 MySQL 手 册 中 对 上 面 每 
个 字段 的 含义 都 有 详细 的 解释 。 这 里 需要 特别 提 太 的 是 索引 列 的 基数 
(Cardinaliy) ， 其 显示 了 存储 引擎 估算 索引 列 有 多 少 个 不 同 的 取 值 。 
在 MySQL 50 和 更 新 的 版 本 中 ， 还 可 以 通过 
INFORMATION_SCHEMA.STATISTICS 表 很 方便 地 查询 到 这 些 信息 。 
例如 基于 INFORMATION_SCHEMA 的 表 ， 可 以 编写 一 个 查询 给 出 当 
前 选择 性 比较 低 的 索引 。 需 要 注意 的 是 ， 如 果 服 务 器 上 的 库 表 非 常 
多 ， 则 从 这 里 获取 元 数据 的 速度 可 能 会 非常 慢 ， 而 且 会 给 MySQL 带 来 
额外 的 压力 。 


InnoDB 的 统计 信息 值得 深入 研究 。InnoDB3 引 | 擎 通过 抽样 的 方式 来 
计算 统计 信息 ， 首 先 随机 地 读 取 少量 的 索引 页 面 ， 然 后 以 此 为 样本 计 
算 索 引 的 统计 信息 。 在 老 的 mnoDB 版 本 中 ， 样 本 页 面 数 是 8g， 新 版 本 
的 InnoDB 可 以 通过 参数 innodb_stats_sample_pages 来 设置 样本 页 的 数 
量 。 设 置 更 大 的 值 ， 理 论 上 来 说 可 以 帮助 生成 更 准确 的 索引 信息 ， 特 
别 是 对 于 某 些 超大 的 数据 表 来 说 ， 但 具体 设置 多 大 合适 依赖 于 具体 的 
环境 。 


InnoDB 会 在 表 首 次 打开 ， 或 者 执行 ANALYZE TABLE， 抑 或 表 的 
大 小 发 生 非 常 大 的 变化 〈 大 小 变化 超过 十 六 分 之 一 或 者 新 插入 了 20 亿 
行 都 会 触发 ) 的 时 候 计 算 索 引 的 统计 信息 。 


InnoDB 在 打开 某 些 INFORMATION_SCHEMA 表 ， 或 者 使 用 
SHOW TABLE STATUS 和 SHOW INDEX， 抑 或 在 MySQL 客 户 端 开启 
自动 补 全 功能 的 时 候 都 会 触发 索引 统计 信息 的 更 新 。 如 果 服 务 器 上 有 
大 量 的 数据 ， 这 可 能 就 是 个 很 严重 的 问题 ， 尤 其 是 当 IMO 比 较 慢 的 时 
候 。 客 户 端 或 者 监控 程序 触发 索引 信息 采样 更 新 时 可 能 会 导致 大 量 的 
锁 ， 并 给 服务 器 带 来 很 多 的 额外 庄 力 ， 这 会 让 用 户 因为 启动 时 间 漫 长 
MA. RESHOW INDEX 查 看 索引 统计 信息 ， 就 一 定 会 触发 统计 信 
息 的 更 新 。 可 以 关闭 innodb_stats_on _metadata 参 数 来 避免 上 面 提 到 的 


问题 。 


如 果 使 用 Percona 版 本 ， 使 用 的 就 是 Xtr aDB 引擎 而 不 是 原生 的 
InnoDB3 引 | 擎 ， 那 么 可 以 通过 innodb_stats_auto_update 参 数 来 禁止 通过 
自动 采样 的 方式 更 新 索引 统计 信息 ， 这 时 需要 手动 执行 ANALYZE 
TABLE 命 令 来 更 新 统计 信息 。 如 果 某 些 查询 执行 计划 很 不 稳定 的 话 ， 
可 以 用 该 办 法 固化 查询 计划 。 我 们 当初 引入 这 个 参数 也 正 是 为 了 解决 
一 些 客户 的 这 种 问题 。 


如 果 想 要 更 稳定 的 执行 计划 ， 并 在 系统 重启 后 更 快 地 生成 这 些 统 
计 信 息 ， 那 么 可 以 使 用 系统 表 来 持久 化 这 些 索 引 统 计 信 息 。 甚 至 还 可 
以 在 不 同 的 机 器 间 迁 移 索 引 统计 信息 ， 这 样 新 环境 启动 时 就 无 须 再 收 
集 这 些 数据 。 在 Percona 5.1 版 本 和 官方 的 5.6 版 本 都 已 经 加 入 这 个 特 
性 。 在 Percona 版 本 中 通过 innodb_use_sys_stats_table 参 数 可 以 启用 该 特 
性 ， 官 方 5.6 版 本 则 通过 innodb_analyze_is_persistent 参 数控 制 |。 


(0) 


一 旦 关闭 索引 统计 信息 的 自动 更 新 ， 那 么 就 需要 周期 性 地 使 用 
ANALYZE TABLE 来 手动 更 新 。 否 则 ， 索 引 统计 信息 就 会 永远 不 变 。 
如 果 数 据 分 布 发 生 大 的 变化 ， 可 能 会 出 现 一 些 很 糟糕 的 执行 计划 。 


5.5.3 ”减少 索引 和 数据 的 碎片 


B-Tree 索 引 可 能 会 碎片 化 ， 这 会 降低 查询 的 效率 。 碎 片 化 的 索引 
可 能 会 以 很 差 或 者 无 序 的 方式 存储 在 磁盘 上 。 


根据 设计 ，B-Tree 需 要 随机 磁盘 访问 才能 定位 到 叶子 页 ， 所 以 随 
机 访问 是 不 可 避 锡 的。 然而， 如果 叶子 页 在 物理 分 布 上 是 顺序 且 紧 密 
AN, MADARA BY. All, VCH, Alea 
等 操作 来 说 ， 速 度 可 能 会 降低 很 多 倍 ， 对 于 索引 覆盖 扫描 这 一 点 更 加 


明显 。 


表 的 数据 存储 也 可 能 碎片 化 。 然 而 ， 数 据 存 储 的 雁 片 化 比 索 引 更 
加 复杂 。 有 三 种 类 型 的 效 据 雁 睫 。 


行 碎 片 (Row fragmentation) 


这 种 碎片 指 的 是 数据 行 被 存储 为 多 个 地 方 的 多 个 片段 中 。 即 
使 查询 只 从 索引 中 访问 一 行 记录 ， 行 碎片 也 会 导致 性 能 下 降 。 
行 间 碎片 (Intra-row fragmentation) 
行 间 碎 片 是 指 逻辑 上 顺序 的 页 ， 或 者 行 在 磁盘 上 不 是 顺序 存 
储 的 。 行 间 碎 片 对 诸如 全 表 扫 描 和 聚 簇 索 引 扫 描 之 类 的 操作 有 很 
大 的 影响 ， 因 为 这 些 操作 原本 能 够 从 磁盘 上 顺序 存储 的 数据 中 获 


2 
Mo 


剩余 空间 碎片 (Free space fragmentation) 


剩余 空间 碎片 是 指数 据 页 中 有 大 量 的 空余 空间 。 这 会 导致 服 
务 器 读 取 大 量 不 需要 的 数据 ， 从 而 造成 浪费 。 


对 于 MyISAM 表 ， 这 三 类 碎片 化 都 可 能 发 生 。 但 InnoDB 不 会 出 现 
中小 的 行 碎片 }; InnoDB 会 移动 短小 的 行 并 重 写 到 一 个 片段 中 。 


可 以 通过 执行 OPTIMIZE TABLE 或 者 导出 再 导入 的 方式 来 重新 整 
理 数 据 。 这 对 多 数 存 储 引 擎 都 是 有 效 的 。 对 于 一 些 存 储 引 擎 如 
MyISAM， 可 以 通过 排序 算法 重建 索引 的 方式 来 消除 碎片 。 老 版 本 的 
InnoDB 没 有 什么 消除 碎片 化 的 方法 。 不 过 最 新 版 本 InnoDB 新 增 了 “在 
线 ” 添 加 和 删除 索引 的 功能 ， 可 以 通过 先 删 除 ， 然 后 再 重新 创建 索引 的 
方式 来 消除 索引 的 碎片 化 。 


对 于 那些 不 支持 OPTIMIZE TABLE 的 存储 引擎 ， 可 以 通过 一 个 不 
做 任何 操作 (no-op) 的 ALTER TABLE 操 作 来 重建 表 。 只 需要 将 表 的 
存储 引擎 修改 为 当前 的 引擎 即 可 : 


mysql> ALTER TABLE <table> ENGINE=<engine>; 


对 于 开启 了 expand_fast_index_creation 人 参数 的 Percona Server， 按 这 
种 方式 重建 表 ， 则 会 同时 消除 表 和 索引 的 碎片 化 。 但 对 于 标准 版 本 的 
MySQL 则 只 会 消除 表 (实际 上 是 聚 簇 索 引 ) 的 碎片 化 。 可 用 先 删 除 所 
有 索引 ， 然 后 重建 表 ， 最 后 重新 创建 索引 的 方式 模拟 Percona Server 的 


这 个 功能 。 


应 该 通过 一 些 实际 测量 而 不 是 随意 假设 来 确定 是 否 需要 消除 索引 
和 表 的 碎片 化 。Percona 的 XtraBackup 有 个 --stats 参 数 以 非 备 份 的 方式 
运行 ， 而 只 是 打印 索引 和 表 的 统计 情况 ， 包 括 页 中 的 数据 量 和 空余 空 


间 。 这 可 以 用 来 确定 数据 的 碎片 化 程度 。 另 外 也 要 考虑 数据 是 否 已 经 
达到 稳定 状态 ， 如 果 你 进行 碎片 整理 将 数据 压缩 到 一 起 ， 可 能 反而 会 
导致 后 续 的 更 新 操作 触发 一 系列 的 页 分 裂 和 重组 ， 这 会 对 性 能 造成 不 
良 的 影响 《直到 数据 再 次 达到 新 的 稳定 状态 ) o 


5.6 ”总 结 


通过 本 章 可 以 看 到 ， 索 引 是 一 个 非常 复杂 的 话题 ! MySQL 和 存储 
引擎 访问 数据 的 方式 ， 加 上 索引 的 特性 ， 使 得 索引 成 为 一 个 影响 数据 
访问 的 有 力 而 灵活 的 工作 (无论 数 据 是 在 磁盘 中 还 是 在 内 存 中 ) o 


在 MySQL 中 ， 大 多 数 情况 下 都 会 使 用 B-Tree 索 引 。 其 他 类 型 的 索 
引 大 多 只 适用 于 特殊 的 目的 。 如 果 在 合适 的 场景 中 使 用 索引 ， 将 大 大 
提高 查询 的 响应 时 间 。 本 章 将 不 再 介绍 更 多 这 方面 的 内 容 了 ， 最 后 值 
得 总 的 回顾 一 下 这 些 特性 以 及 如 何 使 用 B-Tree 索 引 。 


在 选择 索引 和 编写 利用 这 些 索引 的 查询 时 ， 有 如 下 三 个 原则 始终 
需要 记 住 : 


1. 单行 访问 是 很 慢 的 。 特 别 是 在 机 械 硬 盘存 储 中 〈SSD 的 随机 MO 要 
快 很 多 ， 不 过 这 一 点 仍然 成 立 ) 。 如 果 服 务 器 从 存储 中 读 取 一 个 
数据 块 只 是 为 了 获取 其 中 一 行 ， 那 么 就 浪费 了 很 多 工作 。 最 好 读 
取 的 块 中 能 包含 尽 可 能 多 所 需要 的 行 。 使 用 索引 可 以 创建 位 置 引 
用 以 提升 效率 。 

按 顺 序 访 问 范 围 数 据 是 很 快 的 ， 这 有 两 个 原因 。 第 一 ， 顺 序 IO 不 
需要 多 次 磁盘 寻 道 ， 所 以 比 随 机 1O 要 快 很 多 (特别 是 对 机 械 硬 
盘 ) 。 第 二 ， 如 果 服 务 器 能 够 按 需 要 顺序 读 取 数 据 ， 那 么 就 不 再 


y 


需要 额外 的 排序 操作 ， 并 且 GROUP BY 查询 也 无 须 再 做 排序 和 将 
行 按 组 进行 聚合 计算 了 。 

索引 履 盖 查询 是 很 快 的 。 如 果 一 个 索引 包含 了 查询 需要 的 所 有 
列 ， 那 么 存储 引擎 就 不 需要 再 回 表 碍 找 行 。 这 避免 了 大 量 的 单行 
访问 ， 而 上 面 的 第 1 点 已 经 写 明 单行 访问 是 很 慢 的 。 


ad 


总 的 来 说 ， 编 写 查 询 语句 时 应 该 尽 可 能 选择 合适 的 索引 以 避免 单 
行 查 找 、 尽 可 能 地 使 用 数据 原生 顺序 从 而 避免 额外 的 排序 操作 ， 并 尽 
可 能 使 用 索引 才 盖 查询 。 这 与 本 章 开头 提 到 的 Lahdenmaki 和 Leach 的 书 
中 的 “三 星 ? 评 价 系统 是 一 致 的 。 


如 果 表 上 的 每 一 个 查询 都 能 有 一 个 完美 的 索引 来 满足 当然 是 最 好 
的 。 但 不 乎 的 是 ， 要 这 么 做 有 时 可 能 需要 创建 大 量 的 索引 。 还 有 一 些 
时 候 对 某 些 查询 是 不 可 能 创建 一 个 达到 “三 星 ” 的 索引 的 (例如 查询 要 
按照 两 个 列 排序 ， 其 中 一 个 列 正 序 ， 另 一 个 列 倒序 ) 。 这 时 必须 有 所 
取舍 以 创建 最 合适 的 索引 ， 或 者 寻求 替代 策略 (例如 反 范 式 化 ， 或 者 
提前 计算 汇总 表 等 ) o 


理解 索引 是 如 何 工 作 的 非常 重要 ， 应 该 根据 这 些 理解 来 创建 最 合 
适 的 索 5|， 而 不 是 根据 一 些 诸如 “在 多 列 索引 中 将 选择 性 最 高 的 询 放 在 
第 一 列 ” 或 “应 该 为 WHERE 子 句 中 出 现 的 所 有 列 创建 索引 ”之 类 的 经 验 
法 则 及 其 推论 。 


那 如 何 判断 一 个 系统 创建 的 论 引 是 合理 的 呢 ? 一 般 来 说 ， 我 们 建 
议 按 响应 时 间 来 对 查询 进行 分 析 。 找 出 那些 消耗 最 长 时 间 的 查询 或 者 
那些 给 服务 器 带 来 最 大 压力 的 查询 《第 3 章 中 介绍 了 如 何 测量 ) ， 然 后 
检查 这 些 查询 的 schema、SQL 和 索引 结构 ， 判 断 是 否 有 碍 询 扫描 了 太 


多 的 行 ， 是 否 做 了 很 多 额外 的 排序 或 者 使 用 了 临时 表 ， 是 否 使 用 随机 
IO 访问 数据 ， 或 者 是 有 太 多 回 表 碍 询 那些 不 在 索引 中 的 列 的 操作 。 


如 果 一 个 查询 无 法 从 所 有 可 能 的 索引 中 获 益 ， 则 应 该 看 看 是 否 5 
以 创建 一 个 更 合适 的 索引 来 提升 性 能 。 如 果 不 行 ， 也 可 以 看 看 是 否 晶 
以 重 写 该 查询 ， 将 其 转化 成 一 个 能 够 高 效 利 用 现 有 索引 或 者 新 创建 索 
引 的 查询 。 这 也 是 下 一 章 要 介绍 的 内 容 。 


如 果 根 据 第 3 章 介绍 的 基于 响应 时 间 的 分 析 不 能 找 出 有 问题 的 查询 
呢 ? 是 否 可 能 有 我 们 没有 注意 到 的 “很 糟糕 ”的 查询 ， 需 要 一 个 更 好 的 
索引 来 获取 更 高 的 性 能 ? 一 般 来 说 ， 不 可 能 。 对 于 诊断 时 抓 不 到 的 查 
询 ， 那 就 不 是 问题 。 但 是 ， 这 个 查询 未 来 有 可 能 会 成 为 问题 ， 因 为 应 
用 程序 、 数 据 和 负载 都 在 变化 。 如 果 仍 然 想 找到 那些 索引 不 是 很 合适 
的 查询 ， 并 在 它们 成 为 问题 前 进行 优化 ， 则 可 以 使 用 pt-query-digest 的 
查询 审查 “review” 功 能 ， 分 析 其 EXPLAIN 出 来 的 执行 计划 。 


(1) 除非 特别 说 明 ， 本 章 假 设 使 用 的 都 是 传统 的 硬盘 驱动 器 。 固 态 硬 盘 驱 动 器 有 着 完全 不 
同 的 性 能 特性 ， 本 书 将 对 此 进行 详细 的 描述 。 然 而 即使 是 固态 硬盘 ， 索 引 的 原则 依然 成 立 ， 
只 是 那些 需要 尽量 避免 的 糟糕 索引 对 于 固态 硬盘 的 影响 没有 传统 硬盘 那么 糟糕 。 

(2) 实际 上 很 多 存储 引擎 使 用 的 是 B+Tree， 即 每 一 个 叶子 节点 都 包含 指向 下 一 个 叶子 节点 
的 指针 ， 从 而 方便 叶子 节点 的 范围 遍历 。 对 于 B-Tree 更 详细 的 细节 可 以 参考 相关 计算 机 科学 
方面 的 书籍 。 

(3) 这 是 MySQL 相 关 的 特性 ， 甚 至 和 具体 的 版 本 也 相关 。 其 他 有 些 数据 库 也 可 以 使 用 索引 
的 非 前 缀 部 分 ， 虽 然 使 用 完全 的 前 缀 的 效率 会 更 好 。MySQL 未 来 也 可 能 会 提供 这 个 特性 ; 本 
章 后 面 也 会 介绍 一 些 绕 过 限制 的 方法 。 

(4 天 于 哈 希 表 请 参考 相关 计算 机 科学 方面 的 书籍 。 


(5) B¥ http://en.wikipedia.org/wiki/Birthday_problemo 译 者 注 


O 某 些 优化 极 客 (geek) 将 这 称 之 为 “sarg”， 这 是 “可 搜索 的 参数 (searchable 
argument) ”的 缩写 。 好 吧 ， 学 会 了 这 个 词 你 也 是 一 个 极 客 了 。 


(7) Oracle 用 户 可 能 更 熟悉 索引 组 织 表 (index-organized table) 的 说 法 ， 实 际 上 是 一 样 的 


田 
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(8) 这 并 非 总 成 立 ， 很 快 就 可 以 看 到 。 


(9) 顺便 提 一 下 ， 并 不 是 所 有 的 非 聚 艇 索引 都 能 做 到 一 次 索引 查询 就 找到 行 。 当 行 更 新 的 
时 候 可 能 无 法 存储 在 原来 的 位 置 ， 这 会 导致 表 中 出 现行 的 碎片 化 或 者 移动 行 并 在 原 位 置 保存 
“向 前 指针 ”， 这 两 种 情况 都 会 导致 在 查找 行 时 需要 更 多 的 工作 。 


(10) 多 版 本 控制 。 译 者 注 

(11) 值得 指出 的 是 ， 这 是 一 个 真实 案例 中 的 表 ， 有 很 多 二 级 索引 和 列 。 如 果 删 除 这些 二 
级 索引 只 测试 主键 ， 那 么 性 能 差异 将 会 更 明显 。 

(12) 很 容易 把 Extra 列 的 “Using index” 和 type 列 的 “index” 搞 混淆 。 其 实 这 两 者 完全 不 同 ， 
type 列 和 覆盖 索引 之 无 关系 ; 它 只 是 表示 这 个 查询 访问 数据 的 方式 ， 或 者 说 是 MySQL 查 找 行 
的 方式 。MySQL 手 册 中 称 之 为 连接 方式 〈join type) 。 

(13) MySQL 有 两 种 排序 算法 ， 更 多 细节 可 以 阅读 第 7 章 。 

(14) 如 果 需 要 按 不 同方 向 做 排序 ， 一 个 技巧 是 存储 该 列 值 的 反 转 串 或 者 相反 数 。 

(15) MySQL 这 里 称 其 为 文件 排序 (filesort) ， 其 实 并 不 一 定 使 用 磁盘 文件 。 

ao 如 果 索 引 类 型 不 同 ， 并 不 算是 重复 索引 。 例 如 经 常 有 很 好 的 理由 创建 KEY (col) 和 
FULLTEXT KEY (col) 两 种 索引 。 

(17) 这 里 使 用 了 全 内 存 的 案例 ， 如 果 表 逐渐 变 大 ， 导 致 工作 负载 变 成 WO 密集 型 时 ， 性 能 
测试 结果 差距 会 更 大 。 对 于 COUNT() 查 询 ， 覆 盖 索 引 性 能 提升 100 倍 也 是 很 有 可 能 的 。 

(18) 有 些 索引 的 功能 相当 于 唯一 约束 ， 虽 然 该 索引 一 直 没 有 被 查询 使 用 ， 却 可 能 是 用 于 
避免 产生 重复 数据 的 。 

(19) 再 说 一 下 ，MYySQL 5.6 对 于 这 里 的 问题 可 能 会 有 很 大 的 帮助 。 

(20) 尽管 理论 上 使 用 基于 行 的 日 志 模 式 时 ， 在 某 些 事务 隔离 级 别 下 ， 服 务 器 不 再 需要 锁 
定 行 ， 但 实践 中 经 常 发 现 无 法 实现 这 种 预期 的 行为 。 直 到 MySQL 5.6.3 版 本 ， 在 read-commit 隔 
离 级 别 和 基于 行 的 日 志 模 式 下 ， 这 个 例子 还 是 会 导致 锁 。 
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第 6 章 ”查询 性 能 优化 


前 面 的 章节 我 们 介绍 了 如 何 设计 最 优 的 库 表 结构 、 如 何 建立 最 好 
的 索引 ， 这 些 对 于 高 性 能 来 说 是 必 不 可 少 的 。 但 这 些 还 不 够 
要 合理 的 设计 碍 询 。 如 果 碍 询 写 得 很 糟 糙 ， 即 使 库 表 结构 再 合理 、 率 
引 再 合适 ， 也 无 法 实现 高 性 能 。 


还 需 


查询 优化 、 索 引 优化 、 库 表 结 构 优 化 需要 齐头并进 ， 一 个 不 落 。 
在 获得 编写 MySQL 查 询 的 经 验 的 同时 ， 也 将 学 习 到 如 何 为 高 效 的 查询 
设计 表 和 索引 。 同 样 的 ， 也 可 以 学 习 到 在 优化 库 表 结构 时 会 影响 到 哪 
些 类 型 的 查询 。 这 个 过 程 需要 时 间 ， 所 以 建议 大 家 在 学 习 后 面 章节 的 
时 候 多 回头 看 看 这 三 章 的 内 容 。 


本 章 将 从 查询 设计 的 一 些 基 本 原则 开始 一 一 这 也 是 在 发 现 查询 效 
率 不 高 的 时 候 首 先 需要 考虑 的 因素 。 然 后 会 介绍 一 些 更 深 的 查询 优化 
的 技巧 ， 并 会 介绍 一 些 MySQL 优 化 器 内 部 的 机 制 。 我 们 将 展示 
MySQL 是 如 何 执行 查询 的 ， 你 也 将 学 会 如 何 去 改 变 一 个 查询 的 执行 计 
划 。 最 后 ， 我 们 要 看 一 下 MySQL 优 化 器 在 哪些 方面 做 得 还 不 够 ， 并 探 
索 查 询 优 化 的 模式 ， 以 帮助 MySQL 更 有 效 地 执行 查询 。 


本 章 的 目标 是 帮助 大 家 更 深刻 地 理解 MySQL 如 何 真 正 地 执行 查 
询 ， 并 明白 高 效 和 低 效 的 原因 何在 ， 这 样 才能 充分 发 挥 MySQL 的 优 
势 ， 并 避 开 它 的 弱点 。 


6.1 为 什么 查询 速度 会 慢 


在 尝试 编写 快速 的 查询 之 前 ， 需 要 清楚 一 点 ， 真 正 重 要 是 响应 时 
间 。 如 果 把 查询 看 作 是 一 个 任务 ， 那 么 它 由 一 系列 子 任务 组 成 ， 每 个 
子 任务 都 会 消耗 一 定 的 时 间 。 如 果 要 优化 查询 ， 实 际 上 要 优化 其 子 任 
务 ， 要 么 消除 其 中 一 些 子 任务 ， 要 么 减少 子 任务 的 执行 次 数 ， 要 么 让 
子 任务 运行 得 更 快 四。 


MySQL 在 执行 查询 的 时 候 有 哪些 子 任 务 ， 哪 些 子 任务 运行 的 速度 
很 慢 ? 这 里 很 难 给 出 完整 的 列表 ， 但 如 果 按照 第 3 章 介绍 的 方法 对 查询 
进行 剖析 ， 就 能 看 到 查询 所 执行 的 子 任务 。 通 常 来 说 ， 查 询 的 生命 周 
期 大 致 可 以 按照 顺序 来 看 : 从 客户 端 ， 到 服务 器 ， 然 后 在 服务 器 上 进 
行 解析 ， 生 成 执行 计划 ， 执 行 ， 并 返回 结果 给 客户 端 。 其 中 “执行 ”可 
以 认为 是 整个 生命 周期 中 最 重要 的 阶段 ， 这 其 中 包括 了 大 量 为 了 检索 
数据 到 存储 引擎 的 调用 以 及 调用 后 的 数据 处 理 ， 包 括 排序 、 分 组 等 。 


在 完成 这 些 任务 的 时 候 ， 查 询 需 要 在 不 同 的 地 方 伦 费 时 间 ， 包 括 
网 络 ，CPU 计 算 ， 生 成 统计 信息 和 执行 计划 、 锁 等 待 〈 互 斥 等 待 ) 等 
操作 ， 克 其 是 向 底层 存储 引擎 检索 数据 的 调用 操作 ， 这 些 调用 需要 在 
内 存 操作 、CPU 操 作 和 内 存 不 足 时 导致 的 O 操 作 上 消耗 时 间 。 根 据 存 
储 5 引擎 不 同 ， 可 能 还 会 产生 大 量 的 上 下 文 切 换 以 及 系统 调用 。 


在 每 一 个 消耗 大 量 时 间 的 查询 案例 中 ， 我 们 都 能 看 到 一 些 不 必要 
的 额外 操作 、 某 些 操作 被 额外 地 重复 了 很 多 次 、 某 些 操作 执行 得 太 慢 
等 。 优 化 查询 的 目的 就 是 减少 和 消除 这 些 操作 所 人 花费 的 时 间 。 


再 次 申明 一 点 ， 对 于 一 个 查询 的 全 部 生命 周期 ， 上 面 列 的 并 不 完 
整 。 这 里 我 们 只 是 想 说 明 : 了 解 查询 的 生命 周期 、 清 楚 查 询 的 时 间 消 
耗 情 况 对 于 优化 查询 有 很 大 的 意义 。 有 了 这 些 概 念 ， 我 们 再 一 起 来 看 
看 如 何 优化 查询 。 


6.2” 慢 查询 基础 : 优化 数据 访问 


查询 性 能 低下 最 基本 的 原因 是 访问 的 数据 太 多 。 某 些 查 询 可 能 不 
可 避免 地 需要 和 沛 选 大 量 数据 ， 但 这 并 不 常见 。 大 部 分 性 能 低下 的 查询 
都 可 以 通过 减少 访问 的 数据 量 的 方式 进行 优化 。 对 于 低 效 的 查询 ， 我 
们 发 现 通 过 下 面 两 个 步骤 来 分 析 总 是 很 有 效 : 


1. 确认 应 用 程序 是 否 在 检索 大 量 超过 需要 的 数据 。 这 通常 意味 着 访 
问 了 太 多 的 行 ， 但 有 时 候 也 可 能 是 访问 了 太 多 的 列 。 
2. 确认 MySQL 服 务 器 层 是 否 在 分 析 大 量 超过 需要 的 数据 行 。 


6.2.1 ”是否 向 数据 库 请 求 了 不 需要 的 
数据 


有 些 查 询 会 请 求 超过 实际 需要 的 数据 ， 然 后 这 些 多 余 的 数据 会 被 
应 用 程序 丢弃 。 这 会 给 MySQL 服 务 器 带 来 额外 的 负担 ， 并 增加 网 络 开 
销 外 ， 另 外 也 会 消耗 应 用 服务 器 的 CPU 和 内 存 资源 。 


这 里 有 一 些 典 型 案例 : 
查询 不 需要 的 记录 


一 个 常见 的 错误 是 常常 会 误 以 为 MySQL 会 只 返回 需要 的 数 
据 ， 实 际 上 MySQL 却 是 先 返 回 全 部 结果 集 再 进行 计算 。 我 们 经 常 
会 看 到 一 些 了 解 其 他 数据 库 系 统 的 人 会 设计 出 这 类 应 用 程序 。 这 
些 开发 者 习惯 使 用 这 样 的 技术 ， 先 使 用 SELECT 语 句 查 询 大 量 的 


结果 ， 然 后 获取 前 面 的 N 行 后 关闭 结果 集 (例如 在 新 闻 网 站 中 取 
出 100 条 记录 ， 但 是 只 是 在 页 面 上 显示 前 面 10 条 ) 。 他 们 认为 
MySQL 会 执行 查询 ， 并 只 返回 他 们 需要 的 10 条 数据 ， 然 后 停止 查 
询 。 实 际 情况 是 MySQL 会 查询 出 全 部 的 结果 集 ， 客 户 端 的 应 用 程 
序 会 接收 全 部 的 结果 集 数据 ， 然 后 抛弃 其 中 大 部 分 数据 。 最 简单 
有 效 的 解决 方法 就 是 在 这 样 的 查询 后 面 加 上 LIMIT。 


多 表 天 联 时 返回 全 部 列 


如 果 你 想 查 询 所 有 在 电影 Academy Dinosaur A H MWENS A, 
千 万 不 要 按 下 面 的 写法 编写 查询 : 


mysql> SELECT * FROM sakila.actor 
-> INNER JOIN sakila.film_actor USING(actor_id) 
-> INNER JOIN sakila. film USING(film_id) 


-> WHERE sakila.film.title = 'Academy Dinosaur'; 


这 将 返回 这 三 个 表 的 全 部 数据 列 。 正 确 的 方式 应 该 是 像 下 面 这 样 
只 取 需 要 的 列 : 


mysql> SELECT sakila.actor.* FROM sakila.actor...; 
总 是 取出 全 部 列 


每 次 看 到 SELECT * 的 时 候 都 需要 用 怀疑 的 眼光 审视 ， 是 不 是 
真 的 需要 返回 全 部 的 列 ? 很 可 能 不 是 必需 的 。 取 出 全 部 列 ， 会 让 
优化 器 无 法 完成 索引 覆盖 扫描 这 类 优化 ， 还 会 为 服务 器 带 来 额外 


的 IO、 内 存 和 CPU 的 消耗 。 因 此 ， 一 些 DBA 是 严格 禁止 SELECT 
*+ 的 写法 的 ， 这 样 做 有 时 候 还 能 避免 某 些 列 被 修改 带 来 的 问题 。 


当然 ， 查 询 返 回 超过 需要 的 数据 也 不 总 是 坏事 。 在 我 们 研究 
过 的 许多 案例 中 ， 人 们 会 告诉 我 们 说 这 种 有 点 浪费 数据 库 资 源 的 
方式 可 以 简化 开发 ， 因 为 能 提高 相同 代码 片段 的 复 用 性 ， 如 果 清 
楚 这 样 做 的 性 能 影响 ， 那 么 这 种 做 法 也 是 值得 考虑 的 。 如 果 应 用 
程序 使 用 了 某 种 缓存 机 制 ， 或 者 有 其 他 考虑 ， 获 取 超 过 需要 的 数 
据 也 可 能 有 其 好 处 ， 但 不 要 乐 记 这 样 做 的 代价 是 什么 。 获 取 并 缓 
存 所 有 的 列 的 查询 ， 相 比 多 个 独立 的 只 获取 部 分 列 的 查询 可 能 就 
更 有 好 处 。 


重复 查询 相同 的 数据 


如 果 你 不 太 小 心 ， 很 容易 出 现 这 样 的 错误 一 一 不 断 地 重复 执 
行 相 同 的 查询 ， 然 后 每 次 都 返回 完全 相同 的 数据 。 例 如 ， 在 用 户 
评论 的 地 方 需要 查询 用 户头 像 的 URL， 那 么 用 户 多 次 评论 的 时 
候 ， 可 能 就 会 有 反复 查询 这 个 数据 。 比 较 好 的 方案 是 ， 当 初次 查询 
的 时 候 将 这 个 数据 缓存 起 来 ， 需 要 的 时 候 从 缓存 中 取出 ， 这 样 性 


能 显然 会 更 好 。 


6.2.2 MySQL 是 否 在 扫描 额外 的 记录 


在 确定 查询 只 返回 需要 的 数据 以 后 ， 接 下 来 应 该 看 看 查询 为 了 返 
回 结果 是 否 扫描 了 过 多 的 数据 。 对 于 MySQL ， 最 简单 的 衡量 查询 开销 
的 三 个 指标 如 下 : 


响应 时 间 
扫描 的 行 数 
返回 的 行 数 


没有 哪个 指标 能 够 完美 地 衡量 查询 的 开销 ， 但 它们 大 致 反映 了 
MySQL 在 内 部 执行 查询 时 需要 访问 多 少数 据 ， 并 可 以 大 概 推算 出 查询 
运行 的 时 间 。 这 三 个 指标 都 会 记录 到 MySQL 的 慢 日 志 中 ， 所 以 检查 慢 
日 志 记 录 是 找 出 扫描 行 数 过 多 的 查询 的 好 办 法 。 


响应 时 间 


要 记 住 ， 响 应 时 间 只 是 一 个 表面 上 的 值 。 这 样 说 可 能 看 起 来 和 前 
面 关 于 了 响应 时 间 的 说 法 有 矛盾 ? 其 实 并 不 矛盾 ， 了 响应 时 间 仍 然 是 最 重 
要 的 指标 ， 这 有 一 点 复杂 ， 后 面 细 细 道 来 。 


响应 时 间 是 两 个 部 分 之 和 : 服务 时 间 和 排队 时 间 。 服 务 时 间 是 指 
数据 库 处 理 这 个 查询 真正 花 了 多 长 时 间 。 排 队 时 间 是 指 服 务 器 因为 等 
待 某 些 资源 而 没有 真正 执行 查询 的 时 间 一 一 可 能 是 等 O 操 作 完 成 ， 也 

可 能 是 等 待 行 锁 ， 等 等 。 遗 憾 的 是 ， 我 们 无 法 把 响应 时 间 细 分 到 上 面 
这 些 部 分 ， 除 非 有 什么 办 法 能 够 逐个 测量 上 面 这 些 消耗 ， 不 过 很 难 做 
到 。 一 般 最 常见 和 重要 的 等 待 是 1O 和 锁 等 待 ， 但 是 实际 情况 更 加 复 


杂 。 


所 以 在 不 同类 型 的 应 用 压力 下 ， 响 应 时 间 并 没有 什么 一 致 的 规律 
或 者 公式 。 诸 如 存储 引擎 的 锁 (AM. TH) 、 高 并 发 资源 竞争 、 硬 
件 响应 等 诸多 因素 都 会 影响 响应 时 间 。 所 以 ， 响 应 时 间 既 可 能 是 一 个 
问题 的 结果 也 可 能 是 一 个 问题 的 原因 ， 不 同 案例 情况 不 同 ， 除 非 能 够 


使 用 第 3 章 的 “单个 查询 问题 还 是 服务 器 问题 "一 节 介绍 的 技术 来 确定 到 
底 是 因 还 是 果 。 


当 你 看 到 一 个 查询 的 响应 时 间 的 时 候 ， 首 先 需要 问 问 自己 ， 这 个 
响应 时 间 是 否 是 一 个 合理 的 值 。 实 际 上 可 以 使 用 “快速 上 限 估计 ”法 来 
估算 查询 的 响应 时 间 ， 这 是 由 TapioLahdenmaki 和 Mike Leach 编 写 的 
Relational Database Index Design and the Optimizers (Wiley 出 版 社 ) 一 
书 提 到 的 技术 ， 限 于 篇 幅 ， 在 这 里 不 会 详细 展开 。 概 括 地 说 ， 了 解 这 
个 查询 需要 哪些 索引 以 及 它 的 执行 计划 是 什么 ， 然 后 计算 大 概 需 要 多 
少 个 顺序 和 随机 WO， 再 用 其 乘 以 在 具体 硬件 条 件 下 一 次 WO 的 消耗 时 
间 。 最 后 把 这 些 消耗 都 加 起 来 ， 融 可 以 获得 一 个 大 概 人 参考 值 来 判断 当 
前 响应 时 间 是 不 是 一 个 合理 的 值 。 


扫描 的 行 数 和 返回 的 行 数 


分 析 查 询 时 ， 查 看 该 查询 扫描 的 行 数 是 非常 有 帮助 的 。 这 在 一 定 
程度 上 能 够 说 明 该 查询 找到 需要 的 数据 的 效率 高 不 高 。 


对 于 找 出 那些 “糟糕 ”的 查询 ， 这 个 指标 可 能 还 不 够 完美 ， 因 为 并 
不 是 所 有 的 行 的 访问 代价 都 是 相同 的 。 较 短 的 行 的 访问 速度 更 快 ， 内 
存 中 的 行 也 比 磁盘 中 的 行 的 访问 速度 要 快 得 多 。 


理想 情况 下 扫描 的 行 数 和 返回 的 行 数 应 该 是 相同 的 。 但 实际 情况 
中 这 种 “ 美 事 * 并 不 多 。 例 如 在 做 一 个 关联 查询 时 ， 服 务 器 必须 要 扫描 
多 行 才 能 生成 结果 集中 的 一 行 。 扫 描 的 行 数 对 返回 的 行 数 的 比率 通常 
很 小 ， 一 般 在 1:1 和 10:1 之 间 ， 不 过 有 了 时候 这 个 值 也 可 能 非常 非常 大 。 


扫描 的 行 数 和 访问 类 型 


在 评估 查询 开销 的 时 候 ， 需 要 考虑 一 下 从 表 中 找到 某 一 行 数据 的 
成 本 。MySQL 有 好 几 种 访问 方式 可 以 查找 并 返回 一 行 结果 。 有 些 访 问 
方式 可 能 需要 扫描 很 多 行 才 能 返回 一 行 结果 ， 也 有 些 访问 方式 可 能 
须 扫 摘 融 能 返回 结果 。 


在 EXPLAIN 语 句 中 的 type 列 反应 了 访问 类 型 。 访 问 类 型 有 很 多 
种 ， 从 全 表 扫 描 到 索引 扫描 、 范 围 扫 描 、 唯 一 索引 查询 、 常 数 引用 
等 。 这 里 列 的 这 些 ， 速 度 是 从 慢 到 快 ， 扫 描 的 行 数 也 是 从 小 到 大 。 你 
不 需要 记 住 这 些 访问 类 型 ， 但 需要 明白 扫描 表 、 扫 描 索 引 、 泡 围 访问 
和 单 值 访问 的 概念 。 


如 果 碍 询 没 有 办 法 找到 合适 的 访问 类 型 ， 那 么 解决 的 最 好 办 法 通 
常 就 是 增加 一 个 合适 的 索引 ， 这 也 正 是 我 们 前 一 章 讨论 过 的 问题 。 现 
在 应 该 明白 为 什么 索引 对 于 查询 优化 如 此 重要 了 。 索 引 让 MySQL 以 最 
高 效 、 扫 描 行 数 最 少 的 方式 找到 需要 的 记录 。 


例如 ， 我 们 看 看 示例 数据 库 Sakila 中 的 一 个 查询 案例 : 


mysql> SELECT *FROM sakila.film_actor WHERE film id = 1; 


这 个 查询 将 返回 10 行 数据 ， 从 EXPLAIN 的 结果 可 以 看 到 ， 
MySQL 在 索引 lidx_fk_film_id 上 使 用 了 ref 访 问 类 型 来 执行 查询 : 


mysql> EXPLAIN SELECT * FROM sakila.film actor WHERE 


film_id = 1\G 


eee Te ee eee ee ee eee ee eT 1. row 
eee ee ee Te ee ee eee ee eT 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: ref 
possible_keys: idx_fk_film_id 
key: idx_fk_film_id 
key_len: 2 
ref: const 
rows: 10 


Extra: 


EXPLAIN 的 结果 也 显示 MySQL 预 估 需 要 访问 10 行 数据 。 换 句 话 
说 ， 查 询 优 化 器 认为 这 种 访问 类 型 可 以 高 效 地 完成 查询 。 如 果 没 有 合 
适 的 索引 会 怎样 呢 ? MySQL 就 不 得 不 使 用 一 种 更 糟糕 的 访问 类 型 ， 下 
面 我 们 来 看 看 如 果 我 们 删除 对 应 的 索引 再 来 运行 这 个 查询 : 


mysql> ALTER TABLE sakila.film_actor DROP FOREIGN KEY 
fk_film_actor_film; 
mysql> ALTER TABLE sakila.film_actor DROP KEY 
idx_fk_film_id; 
mysql> EXPLAIN SELECT * FROM sakila.film_actor WHERE 


film_id = 1\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 


id: 1 
select_type: SIMPLE 

table: film_actor 

type: ALL 

possible_keys: NULL 

key: NULL 

key_len: NULL 

ref: NULL 

rows: 5073 


Extra: Using where 


正如 我 们 预测 的 ， 访 问 类 型 变 成 了 一 个 全 表 扫 描 (ALL) , WE 
MySQL 预 估 需 要 扫描 5073 条 记录 来 完成 这 个 查询 。 这 里 的 “Using 
Where” 表 示 MySQL 将 通过 WHERE 条 件 来 筛选 存储 引擎 返回 的 记录 。 


一 般 MySQL 能 够 使 用 如 下 三 种 方式 应 用 WHERE 条 件 ， 从 好 到 坏 
依次 为 : 


。 在 索引 中 使 用 WHERE 条 件 来 过 滤 不 匹配 的 记录 。 这 是 在 存储 引 
和 擎 层 完成 的 。 

。 使 用 索引 覆盖 扫描 (在 Extra 列 中 出 现 了 Using index) 来 返回 记 
录 ， 直 接 从 索引 中 过 滤 不 需要 的 记录 并 返回 命中 的 结果 。 这 是 在 
MySQL 服 务 器 层 完 成 的 ， 但 无 须 再 回 表 查询 记录 。 

。 从 数据 表 中 返回 数据 ， 然 后 过 滤 不 满足 条 件 的 记录 〈 在 Extra 列 中 
出 现 Using Where) 。 这 在 MySQL 服 务 器 层 完成 ，MySQL 需 要 先 
从 数据 表 读 出 记录 然后 过 滤 。 


上 面 这 个 例子 说 明了 好 的 索引 多 么 重要 。 好 的 索引 可 以 让 查询 使 
用 合适 的 访问 类 型 ， 尽 可 能 地 只 扫描 需要 的 数据 行 。 但 也 不 是 说 增加 
索引 就 能 让 扫描 的 行 数 等 于 返回 的 行 数 。 例 如 下 面 使 用 聚合 函数 
COUNTO 的 查询 3): 


mysql> SELECT actor id, COUNT (*) FROM sakila.film actor 


GROUP BY actor_id; 


这 个 查询 需要 读 取 几 千 行 效 据 ， 但 是 仅 返 回 200 行 结果 。 疫 有 什么 
索引 能 够 让 这 样 的 查询 减少 需要 扫描 的 行 数 。 


不 季 的 是 ，MySQL 不 会 告诉 我 们 生成 结果 实际 上 需要 扫描 多 少 行 
数据 时， 而 只 会 告诉 我 们 生成 结果 时 一 共 扫 描 了 多 少 行 数据 。 扫 描 的 
行 数 中 的 大 部 分 都 很 可 能 是 被 WHERE 条 件 过 滤 掉 的 ， 对 最 终 的 结果 
集 并 没有 贡献 。 在 上 面 的 例子 中 ， 我 们 删除 索引 后 ， 看 到 MySQL 需 要 
扫描 所 有 记录 然后 根据 WHERE 条 件 过 滤 ， 最 终 只 返回 10 行 结果 。 理 
解 一 个 查询 需要 扫描 多 少 行 和 实际 需要 使 用 的 行 数 需要 先 去 理解 这 个 
查询 背后 的 逻辑 和 思想 。 


如 果 发 现 查 询 需 要 扫描 大 量 的 数据 但 只 返回 少数 的 行 ， 那 么 通 瘦 
可 以 尝试 下 面 的 技巧 去 优化 它 : 


。 使 用 索引 宪 盖 扫描 ， 把 所 有 需要 用 的 列 都 放 到 索 引 中 ， 这 样 存储 
引擎 无 须 回 表 获 取 对 应 行 就 可 以 返回 结果 了 (在 前 面 的 章节 中 我 
们 已 经 讨论 过 了 ) 。 

。 改变 库 表 结构 。 例 如 使 用 单独 的 汇总 表 (这 是 我 们 在 第 4 章 中 讨论 
的 办 法 ) o 


。 重 写 这 个 复杂 的 查询 ， 让 MySQL 优 化 器 能 够 以 更 优化 的 方式 执行 


这 个 查询 (这 是 本 章 后 续 需要 讨论 的 问题 ) 。 


6.3” 重 构 查 询 的 方式 


在 优化 有 问题 的 查询 时 ， 目 标 应 该 是 找到 一 个 更 优 的 方法 获得 实 
际 需要 的 结果 一 一 而 不 一 定 总 是 需要 从 MySQL 获 取 一 模 一 样 的 结果 
集 。 有 时 候 ， 可 以 将 查询 转换 一 种 写法 让 其 返回 一 样 的 结果 ， 但 是 性 
能 更 好 。 但 也 可 以 通过 修改 应 用 代码 ， 用 另 一 种 方式 完成 查询 ， 最 终 
达到 一 样 的 目的 。 这 一 节 我 们 将 介绍 如 何 通 过 这 种 方式 来 重 构 查询 ， 
并 展示 何 时 需要 使 用 这 样 的 技巧 。 


6.3.1 一 个 复杂 查询 还 是 多 个 简单 查 


s 


设计 查询 的 时 候 一 个 需要 考虑 的 重要 问题 是 ， 是 否 需 要 将 一 个 复 
杂 的 查询 分 成 多 个 简单 的 查询 。 在 传统 实现 中 ， 总 是 强调 需要 数据 库 
层 完 成 尽 可 能 多 的 工作 ， 这 样 做 的 逻辑 在 于 以 前 总 是 认为 网 络 通信 、 
查询 解析 和 优化 是 一 件 代价 很 高 的 事情 。 


但 是 这 样 的 想法 对 于 MySQL 并 不 适用 ，MySQL 从 设计 上 让 连接 
和 断 开 连接 都 很 轻 量 级 ， 在 返回 一 个 小 的 查询 结果 方面 很 高 效 。 现 代 
的 网 络 速度 比 以 前 要 快 很 多 ， 无 论 是 带宽 还 是 延迟 。 在 某 些 版 本 的 
MySQL 上 ， 即 使 在 一 个 通用 服务 器 上 ， 也 能 够 运行 每 秒 超过 10 万 的 查 


询 ， 即 使 是 一 个 千 兆 网 卡 也 能 轻松 满足 每 秒 超 过 2000 次 的 查询 。 所 以 
运行 多 个 小 查询 现在 已 经 不 是 大 问题 了 。 


MySQL 内 部 每 秒 能 够 扫描 内 存 中 上 百 万 行 数据 ， 相 比 之 下 ， 
MySQL 响 应 数据 给 客户 端 就 慢 得 多 了 。 在 其 他 条 件 都 相同 的 时 候 ， 使 
用 尽 可 能 少 的 查询 当然 是 更 好 的 。 但 是 有 时 候 ， 将 一 个 大 查询 分 解 为 
多 个 小 查询 是 很 有 必要 的 。 别 害怕 这 样 做 ， 好 好 衡量 一 下 这 样 做 是 不 
是 会 减少 工作 量 。 稍 后 我 们 将 通过 本 章 的 一 个 示例 来 展示 这 个 技巧 的 
优势 。 


不 过 ， 在 应 用 设计 的 时 候 ， 如 果 一 个 查询 能 够 胜任 时 还 写成 多 个 
独立 查询 是 不 明智 的 。 例 如 ， 我 们 看 到 有 些 应 用 对 一 个 数据 表 做 10 次 
独立 的 查询 来 返回 10 行 数据 ， 每 个 查询 返回 一 条 结果 ， 查 询 10 次 ! 


6.3.2” 切 分 查询 


有 时 候 对 于 一 个 大 碍 询 我 们 需要 “分 而 治之 ”， 将 大 碍 询 切 分 成 小 
查询 ， 每 个 查询 功能 完全 一 样 ， 只 完成 一 小 部 分 ， 每 次 只 返回 一 小 部 
分 查询 结果 。 


删除 旧 的 数据 就 是 一 个 很 好 的 例子 。 定 期 地 清除 大 量 数 据 时 ， 如 
果 用 一 个 大 的 语句 一 次 性 完成 的 话 ， 则 可 能 需要 一 次 锁 住 很 多 数据 、 
占 满 整 个 事务 日 志 、 耗 尽 系 统 资源 、 阻 塞 很 多 小 的 但 重要 的 查询 。 将 
一 个 大 的 DELETE 语 句 切 分 成 多 个 较 小 的 查询 可 以 尽 可 能 小 地 影响 
MySQL 性 能 ， 同 时 还 可 以 减少 MySQL 复 制 的 延迟 。 例 如 ， 我 们 需要 
每 个 月 运行 一 次 下 面 的 查询 : 


mysql> DELETE FROM messages WHERE created < 


DATE_SUB(NOW(), INTERVAL 3 MONTH); 


那么 可 以 用 类 似 下 面 的 办 法 来 完成 同样 的 工作 : 


rows_affected = 0 
do { 
rows_affected = do_query( 
"DELETE FROM messages WHERE created < 
DATE_SUB(NOW(), INTERVAL 3 MONTH) 
LIMIT 10000") 


} while rows_affected > 0 


一 次 删除 一 万 行 数据 一 般 来 说 是 一 个 比较 高 效 而 且 对 服务 器 中 影 
响 也 最 小 的 做 法 〈 如 果 是 事务 型 引擎 ， 很 多 时 候 小 事务 能 够 更 高 
效 ) 。 同 时 ， 需 要 注意 的 是 ， 如 果 每 次 删除 数据 后 ， 都 暂停 一 会 儿 再 
做 下 一 次 删除 ， 这 样 也 可 以 将 服务 器 上 原本 一 次 性 的 压力 分 散 到 一 个 
很 长 的 时 间 段 中 ， 束 可 以 大 大 降低 对 服务 器 的 影响 ， 还 可 以 大 大 减少 
删除 时 锁 的 持 有 时 间 。 


6.3.3 ”分解 关联 查询 


很 多 高 性 能 的 应 用 都 会 对 关联 查询 进行 分 解 。 简 单 地 ， 可 以 对 每 
一 个 表 进 行 一 次 单 表 查 询 ， 然 后 将 结果 在 应 用 程序 中 进行 关联 。 例 
如 ， 下 面 这 个 查询 : 


mysql> SELECT * FROM tag 
-> JOIN tag_post ON tag_post.tag_id=tag.id 
-> JOIN post ON tag_post.post_id=post.id 


-> WHERE tag.tag='mysql'; 


可 以 分 解 成 下 面 这 些 碍 询 来 代 蔡 : 


mysql> SELECT * FROM tag_post WHERE tag_id=1'; 


mysql> SELECT * FROM tag_post WHERE tag_id=1234; 
mysql> SELECT * FROM post WHERE post.id in 


(123, 456,567, 9098, 8904); 


到 底 为 什么 要 这 样 做 ? 乍 一 看 ， 这 样 做 并 没有 什么 好 处 ， 原 本 一 


条 碍 询 ， 这 里 却 变 成 多 条 查询 ， 返 回 的 结果 又 是 一 模 一 样 的 。 事 实 


上 ， 


用 分 解 关 联 查 询 的 方式 重 构 查询 有 如 下 的 优势 : 


让 缓存 的 效率 更 高 。 许 多 应 用 程序 可 以 方便 地 缓存 单 表 查询 对 应 
的 结果 对 象 。 例 如 ， 上 面 查询 中 的 tag 已 经 被 缓存 了 ， 那 么 应 用 就 
可 以 跳 过 第 一 个 查询 。 再 例如 ， 应 用 中 已 经 缓存 了 ID 为 123、 
567、9098 的 内 容 ， 那 么 第 三 个 查询 的 INO 中 就 可 以 少 几 个 ID。 另 
外 ， 对 MySQL 的 查询 缓存 来 说 中， 如 果 关 联 中 的 某 个 表 发 生 了 变 
化 ， 那 么 就 无 法 使 用 查询 缓存 了 ， 而 拆 分 后 ， 如 果 某 个 表 很 少 改 
变 ， 那 么 基于 该 表 的 查询 就 可 以 重复 利用 查询 缓存 结果 了 。 

将 查询 分 解 后 ， 执 行 单个 查询 可 以 减少 锁 的 竞争 。 

在 应 用 层 做 关联 ， 可 以 更 容易 对 数据 库 进 行 拆 分 ， 更 容易 做 到 高 
性 能 和 可 扩展 。 


。 查询 本 身 效 率 也 可 能 会 有 所 提升 。 这 个 例子 中 ， 使 用 INO 代 替 天 
联 查询 ， 可 以 让 MySQL 按 照 ID 顺序 进行 查询 ， 这 可 能 比 随 机 的 天 
联 要 更 高 效 。 我 们 后 续 将 详细 介绍 这 点 

可 以 减少 了 风 余 记录 的 查询 。 在 应 用 层 做 关联 查 W, BRENTE 
条 记录 应 用 只 需要 查询 一 次 ， 而 在 数据 库 中 做 关联 查询 ， 则 可 能 
需要 重复 地 访问 一 部 分 数据 。 从 这 点 看 ， 这 样 的 重 构 还 可 能 会 减 
少 网 络 和 内 存 的 消耗 。 

更 进一步 ， 这 样 做 相当 于 在 应 用 中 实现 了 哈 希 关联 ， 而 不 是 使 用 
MySQL 的 府 套 循环 关联 。 某 些 场 景 哈 希 关联 的 效率 要 高 很 多 (本 
章 后 续 我 们 将 讨论 这 点 ) o 


在 很 多 场景 下 ， 通 过 重 构 查 询 将 关联 放 到 应 用 程序 中 将 会 更 加 高 
效 ， 这 样 的 场景 有 很 多 ， 比 如 : 当 应 用 能 够 方便 地 缓存 单个 查询 的 结 
果 的 时 候 、 当 可 以 将 数据 分 布 到 不 Ri en S 当 能 
够 使 用 INO 的 方式 代替 关联 查询 的 时 候 、 当 查询 中 使 用 同一 个 数据 表 
的 时 候 。 


6.4 查询 执行 的 基础 


当 希 望 MySQL 能 够 以 更 高 的 性 能 运行 查询 时 ， 最 好 的 办 法 就 是 弄 
清楚 MySQL 是 如 何 优 化 和 执行 查询 的 。 一 旦 理解 这 一 点 ， 很 多 查询 优 
化 工作 实际 上 就 是 遵循 一 些 原则 让 优化 器 能 够 按照 预想 的 合理 的 方式 
运行 。 

换 句 话说 ， 是 时 候 回 头 看 看 我 们 前 面 讨 论 的 内 容 了 : MySQL 执 行 


一 个 查询 的 过 程 。 根 据 图 6-1， 我 们 可 以 看 到 当 向 MySQL 发 送 一 个 请 
求 的 时 候 ，MySQL 到 底 做 了 些 什么 : 
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图 6-1: 查询 执行 路 径 


1. 客户 端 发 送 一 条 查询 给 服务 器 。 

2. 服务 器 先 检 查 碍 询 缓存 ， 如 果 命 中 了 缓存 ， 则 立刻 返回 存储 在 缓 
存 中 的 结果 。 否 则 进入 下 一 阶段 。 

3. 服务 器 端 进行 SQL 解析 、 预 处 理 ， 再 由 优化 器 生成 对 应 的 执行 计 
划 。 

4. MYSQL 根据 优化 器 生成 的 执行 计划 ， 调 用 存储 引擎 的 API 来 执行 
查询 。 

5. 将 结果 返回 给 客户 端 


上 面 的 每 一 步 都 比 想象 的 复杂 ， 我 们 在 后 续 章 节 中 将 继续 讨论 。 
我 们 会 看 到 在 每 一 个 阶段 查询 处 于 何 种 状态 。 查 询 优化 器 是 其 中 特别 
复杂 也 特别 难 理解 的 部 分 。 还 有 很 多 的 例外 情况 ， 例 如 ， 当 查询 使 用 
绑 定 变量 后 ， 执 行路 径 会 有 所 不 同 ， 我 们 将 在 下 一 章 讨论 这 点 。 


MYSQL 客户 端 /服务 器 通信 协 


一 般 来 说 ， 不 需要 去 理解 MySQL 通 信 协 议 的 内 部 实现 细节 ， 只 需 
要 大 致 理解 通信 协议 是 如 何 工 作 的 。MySQL 客 户 端 和 服务 器 之 间 的 通 
信 协 议 是 “ 半 双 工 ” 的 ， 这 意味 着 ， 在 任何 一 个 时 刻 ， 要 么 是 由 服务 器 
向 客户 端 发 送 数据 ， 要 么 是 由 客户 端 向 服务 器 发 送 数 据 ， 这 两 个 动作 
不 能 同时 发 生 。 所 以 ， 我 们 无 法 也 无 须 将 一 个 消息 切 成 小 块 独立 来 发 


Zo 


这 种 协议 让 MySQL 通 信 简 单 快速 ， 但 是 也 从 很 多 地 方 限制 了 
MySQL。 一 个 明显 的 限制 是 ， 这 意味 着 没 法 进行 流量 控制 。 一 旦 一 端 
开始 发 生 消息 ， 另 一 端 要 接收 完整 个 消息 才能 响应 它 。 这 就 像 来 回 抛 
球 的 游戏 : 在 任何 时 刻 ， 只 有 一 个 人 能 控制 球 ， 而 且 只 有 控制 球 的 人 
才能 将 球 抛 回去 (发 送 消息 ) 。 


客户 端 用 一 个 单独 的 数据 包 将 查询 传 给 服务 器 。 这 也 是 为 什么 当 
查询 的 语句 很 长 的 时 候 ， 参 数 max_allowed_packet 就 特别 重要 了 4。 一 
旦 客户 端 发 送 了 请 求 ， 它 能 做 的 事情 就 只 是 等 待 结 果 了 。 


相反 的 ， 一 般 服 务 器 响应 给 用 户 的 数据 通常 很 多 ， 由 多 个 数据 包 
组 成 。 当 服务 器 开始 响应 客户 端 请 求 时 ， 客 户 端 必须 完整 地 接收 整个 
返回 结果 ， 而 不 能 简单 地 只 取 前 面 几 条 结果 ， 然 后 让 服务 器 停止 发 送 
数据 。 这 种 情况 下 ， 客 户 端 若 接收 完整 的 结果 ， 然 后 取 前 面 几 条 需 
的 结果 ， 或 者 接收 完 几 条 结果 后 就 粗暴 ?地 断 开 连接 ， 都 不 是 好 主 
意 。 这 也 是 在 必要 的 时 候 一 定 要 在 查询 中 加 上 LIMIT 限 制 的 原因 。 


换 一 种 方式 解释 这 种 行为 : 当 客 户 端 从 服务 器 取 数 据 时 ， 看 起 来 
是 一 个 拉 数 据 的 过 程 ， 但 实际 上 是 MySQL 在 向 客户 端 推送 数据 的 过 
程 。 客 户 端 不 断 地 接收 从 服务 器 推送 的 数据 ， 客 户 端 也 没 法 让 服务 器 
停 下 来 。 客 户 端 像 是 “从 消防 水 管 喝 水 ”( 这 是 一 个 术语 ) o 


多 数 连接 MySQL 的 库 函 数 都 可 以 获得 全 部 结果 集 并 缓存 到 内 存 
里 ， 还 可 以 逐 行 获取 需要 的 数据 。 默 认 一 般 是 获得 全 部 结果 集 并 缓存 
到 内 存 中 。MySQL 通 常 需要 等 所 有 的 数据 都 已 经 发 送 给 客户 端 才 能 释 
放 这 条 查询 所 占用 的 资源 ， 所 以 接收 全 部 结果 并 缓存 通常 可 以 减少 服 
务 器 的 压力 ， 让 查询 能 够 早点 结束 、 早 点 释放 相应 的 资源 。 


当 使 用 多 数 连接 MySQL 的 库 函 数 从 MySQL 获 取 数 据 时 ， 其 结 

看 起 来 都 像 是 从 MySQL 服 务 器 获取 数据 ， 而 实际 上 都 是 从 这 个 库 函 数 
的 缓存 获取 数据 。 多 数 情况 下 这 没什么 问题 ， 但 是 如 果 需 要 返回 一 个 
很 大 的 结果 集 的 时 候 ， 这 样 做 并 不 好 ， 因 为 库 孙 数 会 花 很 多 时 间 和 内 
存 来 存储 所 有 的 结果 集 。 如 果 能 够 尽早 开始 处 理 这 些 结果 集 ， 就 能 大 
大 减少 内 存 的 消耗 ， 这 种 情况 下 可 以 不 使 用 缓存 来 记录 结果 而 是 直接 
处 理 。 这 样 做 的 缺点 是 ， 对 于 服务 器 来 说 ， 需 要 查询 完成 后 才能 释放 
资源 ， 所 以 在 和 客户 端 交 互 的 整个 过 程 中 ， 服 务 器 的 资源 都 是 被 这 个 
查询 所 占用 的 (3%。 


我 们 看 看 当 使 用 P H P 的 时 候 是 什么 情况 。 首 先 ， 下 面 是 我 们 连接 
M y S QL 的 通常 与 法 : 


<?php 
$link = mysql_connect('localhost', 'user', 'p4ssword'); 


$result = mysql_query('SELECT * FROM HUGE_TABLE', $link); 


while ( $row = mysql_fetch_array($result) ) { 
// Do something with result 


} 


?>} 


这 段 代码 看 起 来 像 是 只 有 当 你 需要 的 时 候 ， 才 通过 循环 从 服务 器 
端 取 出 数据 。 而 实际 上 ， 在 上 面 的 代码 中 ， 在 调用 mysqlL_query0O 的 时 
候 ，PHP 就 已 经 将 整个 结果 集 缓 存 到 内 存 中 。 下 面 的 while 循 环 只 是 从 
这 个 缓存 中 逐 行 取出 数据 ， 相 反 如 果 使 用 下 面 的 查询 ， 用 
mysql_unbuffered_query(){t#4mysql_query(), PHPRIARBAGAR: 


<?php 
$link = mysql_connect('localhost', 'user', 'p4ssword'); 
$result =  mysql_unbuffered_query('SELECT * FROM 
HUGE_TABLE', $link); 
while ( $row = mysql_fetch_array($result) ) { 


// Do something with result 


?> 


不 同 的 编程 语言 处 理 缓 存 的 方式 不 同 。 例 如 ， 在 Pen 的 DBD:mysql 
驱动 中 需要 指定 C 连 接 库 的 mysql use result 属 性 (默认 是 
mysql_buffer_result) 。 下 面 是 一 个 例子 


#!/usr/bin/perl 


use DBI; 


my $dbh = DBI->connect('DBI:mysql:;host=localhost', 'user', 
'p4ssword'); 
my $sth = $dbh->prepare('SELECT * FROM HUGE_TABLE', { 
mysql_use_result => 1 }); 
$sth->execute(); 
while ( my $row = $sth->fetchrow_array() ) { 
# Do something with result 


} 


注意 到 上 面 的 prepare() 调 用 指定 了 mysql_use_result 属 性 为 1， 所 以 
应 用 将 直接 “使 用 ”返回 的 结果 集 而 不 会 将 其 缓存 。 也 可 以 在 连接 
MySQL 的 时 候 指 定 这 个 属性 ， 这 会 让 整个 连接 都 使 用 不 缓存 的 方式 处 
理 结果 集 : 


my $dbh = DBI->connect('DBI:mysql:;mysql_use_result=1', 


'user', 'p4ssword'); 


查询 状态 


对 于 一 个 MySQL 连 接 ， 或 者 说 一 个 线程 ， 任 何 时 刻 都 有 一 个 状 
态 ， 该 状态 表示 了 MySQL 当 前 正在 做 什么 。 有 很 多 种 方式 能 查看 当前 
的 状态 ， 最 简单 的 是 使 用 HOW FULL PROCESSLIST 命 令 (该 命令 返 
回 结果 中 的 Command 列 就 表示 当前 的 状态 ) 。 在 一 个 查询 的 生命 周期 
中 ， 状 态 会 变化 很 多 次 。MySQL 官 方 手册 中 对 这 些 状 态 值 的 含义 有 最 
权威 的 解释 ， 下 面 将 这 些 状 态 列 出 来 ， 并 做 一 个 简单 的 解释 。 


Sleep 
线程 正在 等 待 客户 端 发 送 新 的 请 求 。 
Query 
线程 正在 执行 查询 或 者 正在 将 结果 发 送 给 客户 端 。 
Locked 


在 MySQL 服 务 器 层 ， 该 线程 正在 等 待 表 锁 。 在 存储 引擎 级 别 
实现 的 锁 ， 例 如 InnoDB 的 行 锁 ， 并 不 会 体现 在 线程 状态 中 。 对 于 
MyISAM 来 说 这 是 一 个 比较 典型 的 状态 ， 但 在 其 他 没有 行 锁 的 引 
擎 中 也 经 常会 出 现 。 


Analyzing and statistics 


线程 正在 收集 存储 引擎 的 统计 信息 ， 并 生成 查询 的 执行 计 
划 。 


Copying to tmp table [on disk] 


线程 正在 执行 查询 ， 并 且 将 其 结果 集 都 复制 到 一 个 临时 表 
中 ， 这 种 状态 一 般 要 么 是 在 做 GROUP BY 操作 ， 要 么 是 文件 排序 
操作 ， 或 者 是 UNION 操 作 。 如 果 这 个 状态 后 面 还 有 “on disk” 标 
记 ， 那 表示 MySQL 正 在 将 一 个 内 存 临 时 表 放 到 磁盘 上 。 


The thread is 


线程 正在 对 结果 集 进行 排序 。 


Sending data 


这 表示 多 种 情况 : 线程 可 能 在 多 个 状态 之 间 传送 数据 ， 或 者 
在 生成 结果 集 ， 或 者 在 向 客户 端 返回 数据 。 


了 解 这 些 状 态 的 基本 含义 非常 有 用 ， 这 可 以 让 你 很 快 地 了 解 当前 
“ 谁 正 在 持 球 ”"@)。 在 一 个 繁忙 的 服务 器 上 ， 可 能 会 看 到 大 量 的 不 正常 
的 状态 ， 例 如 statistics 正 占用 大 量 的 时 间 。 这 通常 表示 ， 某 个 地 方 有 异 
常 了 ， 可 以 通过 使 用 第 3 章 的 一 些 技巧 来 诊断 到 底 是 哪个 环节 出 现 了 问 


题 。 


6.4.2 ”查询 缓存 (10) 


在 解析 一 个 查询 语句 之 前 ， 如 果 碍 询 缓存 是 打开 的 ， 那 么 MySQL 
会 优先 检查 这 个 查询 是 否 命中 查询 缓存 中 的 数据 。 这 个 检查 是 通过 一 
个 对 大 小 写 敏 感 的 哈 希 查找 实现 的 。 查 询 和 缓存 中 的 查询 即使 只 有 一 
个 字 节 不 同 ， 那 也 不 会 匹配 缓存 结果 (由 ， 这 种 情况 下 查询 就 会 进入 下 
一 阶段 的 处 理 。 


如 果 当 前 的 查询 恰好 命中 了 查询 缓存 ， 那 么 在 返回 查询 结果 之 前 
MySQL 会 检查 一 次 用 户 权 限 。 这 仍然 是 无 须 解 析 查 询 SQL 语 句 的 ， 
为 在 查询 缓存 中 已 经 存放 了 当前 查询 需要 访问 的 表 信息 。 如 果 权 限 没 
有 问题 ，MySQL 会 跳 过 所 有 其 他 阶段 ， 直 接 从 缓存 中 拿 到 结果 并 返回 
给 客户 端 。 这 种 情况 下 ， 查 询 不 会 被 解析 ， 不 用 生成 执行 计划 ， 不 会 
被 执行 。 在 第 7 章 中 的 查询 缓存 一 节 ， 你 将 学 习 到 更 多 细节 。 


6.4.3 ”查询 优化 处 理 


查询 的 生命 周期 的 下 一 步 是 将 一 个 SQL 转 换 成 一 个 执行 计划 ， 
MySQL 再 依照 这 个 执行 计划 和 存储 引擎 进行 交互 。 这 包括 多 个 子 阶 
段 : 解析 SQL、 预 处 理 、 优 化 SQL 执 行 计划 。 这 个 过 程 中 任何 错误 
(例如 语法 错误 ) 都 可 能 终止 查询 。 这 里 不 打算 详细 介绍 MySQL 内 部 
实现 ， 而 只 是 选择 性 地 介绍 其 中 几 个 独立 的 部 分 ， 在 实际 执行 中 ， 这 
几 部 分 可 能 一 起 执行 也 可 能 单独 执行 。 我 们 的 目的 是 帮助 大 家 理解 
MySQL 如 何 执行 查询 ， 以 便 写 出 更 优秀 的 查询 。 


语法 解析 器 和 预 处 理 


首先 ，MySQL 通 过 关键 字 将 SQL 语 句 进 行 解析 ， 并 生成 一 棵 对 应 
的 “解析 树 ”"”。MySQL 解 析 器 将 使 用 MySQL 语 法 规则 验证 和 解析 查询 。 
例如 ， 它 将 验证 是 否 使 用 错误 的 关键 字 ， 或 者 使 用 关键 字 的 顺序 是 否 
正确 等 ， 再 或 者 它 还 会 验证 引号 是 否 能 前 后 正确 匹配 。 


预 处 理 器 则 根据 一 些 MySQL 规 则 进一步 检查 解析 树 是 否 合法 ， 例 
如 ， 这 里 将 检查 数据 表 和 数据 列 是 否 存 在 ， 还 会 解析 名 字 和 别名 ， 看 
看 它们 是 否 有 歧义 。 


下 一 步 预 处 理 器 会 验证 权限 。 这 通常 很 快 ， 除 非 服 务 器 上 有 非常 
多 的 权限 配置 。 


查询 优化 器 


现在 语 法 树 被 认为 是 合法 的 了 ， 并 且 由 优化 右 将 其 转化 成 执行 计 
划 。 一 条 查询 可 以 有 很 多 种 执行 方式 ， 最 后 都 返回 相同 的 结果 。 优 化 
器 的 作用 就 是 找到 这 其 中 最 好 的 执行 计划 。 


MySQL 使 用 基于 成 本 的 优化 器 ， 它 将 尝试 预测 一 个 查询 使 用 某 种 
执行 计划 时 的 成 本 ， 并 选择 其 中 成 本 最 小 的 一 个 。 最 初 ， 成 本 的 最 小 
单位 是 随机 读 取 一 个 4K 数 据 页 的 成 本 ， 后 来 (成 本 计算 公式 ) 变 得 更 
加 复杂 ， 并 且 引 入 了 一 些 “ 因 子 ” 来 估算 某 些 操作 的 代价 ， 如 当 执 行 一 
次 WHERE 条 件 比 较 的 成 本 。 可 以 通过 查询 当前 会 话 的 Last_query_cost 
的 值 来 得 知 MySQL 计 算 的 当前 查询 的 成 本 。 


mysql> SELECT SQL NO CACHE COUNT(*) FROM sakila.film_actor; 
+----------+ 


+----------+ 
+----------+ 

+-----------------+-------------+ 
+-----------------+-------------+ 


+-----------------+-------------+ 


这 个 结果 表示 MySQL 的 优化 器 认为 大 概 需 要 做 1040 个 数据 页 的 随 
机 查找 才能 完成 上 面 的 查询 。 这 是 根据 一 系列 的 统计 信息 计算 得 来 
的 : 每 个 表 或 者 索引 的 页 面 个 数 、 索 引 的 基数 (索引 中 不 同 值 的 数 
量 ) 、 索 引 和 数据 行 的 长 度 、 索 引 分 布 情况 。 优 化 器 在 评估 成 本 的 时 
候 并 不 考虑 任何 层面 的 缓存 ， 它 假设 读 取 任何 数据 都 需要 一 次 磁盘 
1/Oo 


有 很 多 种 原因 会 导致 MySQL 优 化 器 选择 错误 的 执行 计划 ， 如 下 所 
示 : 


统计 信息 不 准确 。MySQL 依 赖 存储 引擎 提供 的 统计 信息 来 评估 成 
本 ， 但 是 有 的 存储 引擎 提供 的 信息 是 准确 的 ， 有 的 偏差 可 能 非常 
大 。 例 如 ，InnoDB 因 为 其 MVCC 的 架构 ， 并 不 能 维护 一 个 数据 表 
的 行 数 的 精确 统计 信息 。 

执行 计划 中 的 成 本 估算 不 等 同 于 实际 执行 的 成 本 。 所 以 即使 统计 
言 息 精准 ， 优 化 器 给 出 的 执行 计划 也 可 能 不 是 最 优 的 。 例 如 有 时 
候 某 个 执行 计划 虽然 需要 读 取 更 多 的 页 面 ， 但 是 它 的 成 本 却 更 
小 。 因 为 如 果 这 些 页 面 都 是 顺序 读 或 者 这 些 页 面 都 已 经 在 内 存 中 
的 话 ， 那 么 它 的 访问 成 本 将 很 小 。MySQL 层 面 并 不 知道 哪些 页 面 
在 内 存 中 、 哪 些 在 磁盘 上 ， 所 以 查询 实际 执行 过 程 中 到 底 需 要 多 
少 次 物理 MO 是 无 法 得 知 的 。 

MySQL 的 最 优 可 能 和 你 想 的 最 优 不 一 样 。 你 可 能 希望 执行 时 间 尽 
可 能 的 短 ， 但 是 MySQL 只 是 基于 其 成 本 模型 选择 最 优 的 执行 计 
划 ， 而 有 些 时 候 这 并 不 是 最 快 的 执行 方式 。 所 以 ， 这 里 我 们 看 到 
根据 执行 成 本 来 选择 执行 计划 并 不 是 完美 的 模型 。 

MySQL 从 不 考虑 其 他 并 发 执行 的 查询 ， 这 可 能 会 影响 到 当前 查询 
的 速度 。 

MySQL 也 并 不 是 任何 时 候 都 是 基于 成 本 的 优化 。 有 时 也 会 基于 一 
些 固 定 的 规则 ， 例 如 ， 如 果 存 在 全 文 搜索 的 MATCHO 子 句 ， 则 在 
存在 全 文 索引 的 时 候 就 使 用 全 文 索 引 。 即 使 有 时 候 使 用 别 的 索引 
和 WHERE 条 件 可 以 远 比 这 种 方式 要 快 ，MySQL 也 仍然 会 使 用 对 
应 的 全 文 索引 。 

MySQL 不 会 考虑 不 受 其 控制 的 操作 的 成 本 ， 例 如 执行 存储 过 程 或 
者 用 户 自 定义 函数 的 成 本 。 

后 面 我 们 还 会 看 到 ， 优 化 器 有 时 候 无 法 去 估算 所 有 可 能 的 执行 计 
划 ， 所 以 它 可 能 错过 实际 上 最 优 的 执行 计划 。 


MySQL 的 查询 优化 器 是 一 个 非常 复杂 的 部 件 ， 它 使 用 了 很 多 优化 
策略 来 生成 一 个 最 优 的 执行 计划 。 优 化 策略 可 以 简单 地 分 为 两 种 ， 一 
种 是 静态 优化 ， 一 种 是 动态 优化 。 静 态 优化 可 以 直接 对 解析 树 进 行 分 
析 ， 并 完成 优化 。 例 如 ， 优 化 器 可 以 通过 一 些 简单 的 代数 变换 将 
WHERE 条 件 转换 成 另 一 种 等 价 形式 。 静 态 优化 不 依赖 于 特别 的 数 
值 ， 如 WHERE 条 件 中 融入 的 一 些 常数 等 。 静 态 优化 在 第 一 次 完成 后 
就 一 直 有 效 ， 即 使 使 用 不 同 的 参数 重复 执行 查询 也 不 会 发 生变 化 。 可 
以 认为 这 是 一 种 “编译 时 优化 ”。 


相反 ， 动 态 优化 则 和 查询 的 上 下 文 有 关 ， 也 可 能 和 很 多 其 他 因素 
有 关 ， 例 如 WHERE 条 件 中 的 取 值 、 索 引 中 条 目 对 应 的 数据 行 数 等 。 
这 需要 在 每 次 查询 的 时 候 都 重新 评估 ， 可 以 认为 这 是 “运行 时 优化 ”。 


在 执行 语句 和 存储 过 程 的 时 候 ， 动 态 优 化 和 静态 优化 的 区 别 非常 
重要 。MySQL 对 查询 的 静态 优化 只 需要 做 一 次 ， 但 对 查询 的 动态 优化 
则 在 每 次 执行 时 都 需要 重新 评估 。 有 时 候 甚 至 在 查询 的 执行 过 程 中 也 
会 重新 优化 。(2) 


下 面 是 一 些 MySQL 能 够 处 理 的 优化 类 型 : 
重新 定义 关联 表 的 顺序 
数据 表 的 关联 并 不 总 是 按照 在 查询 中 指定 的 顺序 进行 。 决 定 
关联 的 顺序 是 优化 器 很 重要 的 一 部 分 功能 ， 本 章 后 面 将 深入 介绍 


ny 


将 外 连接 转化 成 内 连接 


并 不 是 所 有 的 OUTER JOIN 语句 都 必须 以 外 连接 的 方式 执 
行 。 诸 多 因素 ， 例 如 WHERE 条 件 、 库 表 结 构 都 可 能 会 让 外 连接 
等 价 于 一 个 内 连接 。MySQL 能 够 识别 这 点 并 重 写 查 询 ， 让 其 可 以 
调整 关联 顺序 。 


使 用 等 价 变换 规则 


MySQL 可 以 使 用 一 些 等 价 变换 来 简化 并 规范 表达 式 。 它 可 以 
合并 和 减少 一 些 比较 ， 还 可 以 移 除 一 些 恒 成 立 和 一 些 恒 不 成 立 的 
判断 。 例 如 ， (5=5 AND a>5) 将 被 改写 为 a>5。 类似 的 ， 如 果 有 

(a<b AND b=c) AND a=5 则 会 改写 为 b>5 AND b=c AND a=5。 
这 些 规 则 对 于 我 们 编写 条 件 语句 很 有 用 ， 我 们 将 在 本 章 后 续 继续 
讨论 。 


优化 COUNTO、MINO 和 MAX() 


索引 和 列 是 否 可 为 空 通常 可 以 帮助 MySQL 优 化 这 类 表达 式 。 
例如 ， 要 找到 某 一 列 的 最 小 值 ， 只 需要 查询 对 应 B-Tree 索 引 最 左 
端的 记录 ，MySQL 可 以 直接 获取 索引 的 第 一 行 记 录 。 在 优化 器 生 
成 执行 计划 的 时 候 就 可 以 利用 这 一 点 ， 在 B-Tree 索 引 中 ， 优 化 器 
会 将 这 个 表达 式 作为 一 个 常数 对 待 。 类 似 的 ,如 果 要 查找 一 个 最 大 
值 ， 也 只 需 读 取 B-Tree 索 引 的 最 后 一 条 记录 。 如 果 MySQL 使 用 了 
这 种 类 型 的 优化 ， 那 么 在 EXPLAIN 中 就 可 以 看 到 “Select tables 
optimized away”。 从 字面 意思 可 以 看 出 ， 它 表示 优化 器 已 经 从 执 
行 计 划 中 移 除 了 该 表 ， 并 以 一 个 常数 取而代之 。 


类 似 的 ， 没 有 任何 WHERE 条 件 的 COUNT (*) 查询 通常 也 可 
以 使 用 存储 引擎 提供 的 一 些 优化 (例如 ，MyISAM 维 护 了 一 个 变 


量 来 存放 数据 表 的 行 数 ) 。 
预 估 并 转化 为 常数 表达 式 


当 MySQL 检 测 到 一 个 表达 式 可 以 转化 为 常数 的 时 候 ， 就 会 一 
直 把 该 表达 式 作 为 常数 进行 优化 处 理 。 例 如 ， 一 个 用 户 自 定义 变 
量 在 查询 中 没有 发 生变 化 时 就 可 以 转换 为 一 个 单数 。 数 学 表达 式 
则 是 另 一 种 典型 的 例子 。 


让 人 惊讶 的 是 ， 在 优化 阶段 ， 有 时 候 甚至 一 个 查询 也 能 够 转 
化 为 一 个 单数。 一 个 例子 是 在 索引 列 上 执行 MINO 阔 数 。 甚 至 是 
主键 或 者 唯一 键 碍 找 语句 也 可 以 转换 为 单数 表达 式 。 如 果 
WHERE 子 句 中 使 用 了 该 类 索引 的 单 效 条 件 ，MySQL 可 以 在 查询 
开始 阶段 就 先 查找 到 这 些 值 ， 这 样 优 化 器 就 能 够 知道 并 转换 为 常 
数 表达 式 。 下 面 是 一 个 例子 : 


mysql> EXPLAIN SELECT film.film id, film actor.actor id 

-> FROM sakila.film 

-> INNER JOIN sakila.film actor USING(film id) 

-> WHERE film.film id = 1; 
+----+-------------+------------+-------+----------------+-------+------+ 


| id | select_type | table | type | key | ref | rows | 
+----+-------------+------------+-------+----------------+-------+------+ 
| 1 | SIMPLE | film | const | PRIMARY | const | i 

| 1 | SIMPLE | film actor | ref | idx fk film id | const | 10 | 
+----+------------- +------------ +------- +---------------- +------- +------ 十 


MySQL 分 两 步 来 执行 这 个 查询 ， 也 就 是 上 面 执行 计划 的 两 行 
输出 。 第 一 步 先 从 film 表 找到 需要 的 行 。 因 为 在 flm_id 字 段 上 有 
主键 索引 ， 所 以 MySQL 优 化 器 知道 这 只 会 返回 一 行 数据 ， 优 化 器 
在 生成 执行 计划 的 时 候 ， 就 已 经 通过 索引 信息 知道 将 返回 多 少 行 
数据 。 因 为 优化 器 已 经 明确 知道 有 多 少 个 值 《WHERE 条 件 中 的 
值 ) 需要 做 索引 查询 ， 所 以 这 里 的 表 访 问 类 型 是 const。 


在 执行 计划 的 第 二 步 ，MySQL 将 第 一 步 中 返回 的 flm_ id 列 当 
作 一 个 已 知 取 值 的 列 来 处 理 。 因 为 优化 器 清楚 在 第 一 步 执 行 完成 
后 ， 该 值 就 会 是 明确 的 了 。 注 意 到 正如 第 一 步 中 一 样 ， 使 用 
flm_actor 字 段 对 表 的 访问 类 型 也 是 const。 


另 一 种 会 看 到 常数 条 件 的 情况 是 通过 等 式 将 常数 值 从 一 个 表 
传 到 另 一 个 表 ， 这 可 以 通过 WHERE、USING 或 者 ON 语句 来 限制 
某 列 取 值 为 常数 。 在 上 面 的 例子 中 ， 因 为 使 用 了 USING 子 句 ， 优 
化 器 知道 这 也 限制 了 fm_ id 在 整个 查询 过 程 中 都 始终 是 一 个 常量 
一 ”因为 它 必须 等 于 WHERE 子 句 中 的 那个 取 值 。 
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当 索 引 中 的 列 包 含 所 有 查询 中 需要 使 用 的 列 的 时 候 ，MySQL 
就 可 以 使 用 索引 返回 需要 的 数据 ， 而 无 须 查 询 对 应 的 数据 行 ， 在 
前 面 的 章节 中 我 们 已 经 讨论 过 这 点 了 。 


子 查 询 优化 
MySQL 在 某 些 情 况 下 可 以 将 子 查 询 转 换 一 种 效率 更 高 的 形 
式 ， 从 而 减少 多 个 查询 多 次 对 数据 进行 访问 。 
提前 终止 查询 
在 发 现 已 经 满足 查询 需求 的 时 候 ，MySQL 总 是 能 够 立刻 终止 
查询 。 一 个 典型 的 例子 就 是 当 使 用 了 LIMIT 子 句 的 时 候 。 除 此 之 
外 ，MySQL 还 有 几 类 情况 也 会 提前 终止 查询 ， 例 如 发 现 了 一 个 不 


成 立 的 条 件 ， 这 时 MySQL 可 以 立刻 返回 一 个 空 结果 。 从 下 面 的 例 
子 可 以 看 到 这 一 点 : 


py as SELECT film.film_id FROM sakila.film WHERE film_ fall 


ee ey S 


从 这 个 例子 看 到 碍 询 在 优化 阶段 就 已 经 终止 。 除 此 之 外 ， 
MySQL 在 执行 过 程 中 ， 如 果 发 现 某 些 特殊 的 条 件 ， 则 会 提前 终止 
查询 。 当 存储 引擎 需要 检索 “不 同 取 值 ”或 者 判断 存在 性 的 时 候 ， 
MySQL 都 可 以 使 用 这 类 优化 。 例 如 ， 我 们 现在 需要 找到 没有 演员 
的 所 有 电影 人 9) : 


mysql> SELECT film. film_id 
-> FROM sakila. film 
-> LEFT OUTER JOIN sakila.film_actor USING(film_id) 


-> WHERE film_actor.film_id IS NULL; 


这 个 查询 将 会 过 渡 掉 所 有 有 演员 的 电影 。 每 一 部 电影 可 能 会 
有 很 多 的 演员 ， 但 是 上 面 的 查询 一 旦 找到 任何 一 个 ， 就 会 停止 并 
立刻 判断 下 一 部 电影 ， 因 为 只 要 有 一 名 演员 ， 那 么 WHERE 条 件 
则 会 过 渡 掉 这 类 电影 。 类 似 这 种 “不 同 值 /不 存在 ”的 优化 一 般 可 用 
于 DISTINCT、NOT EXIST0 或 者 LEFT JOIN 类 型 的 查询 。 


等 值 传播 


如 果 两 个 列 的 值 通过 等 式 关联 ， 那 么 MySQL 能 够 把 其 中 一 
列 的 WHERE 条 件 传 弟 到 另 一 列 上 。 例 如 ， 我 们 看 下 面 的 查询 : 


mysql> SELECT film. film_id 
-> FROM sakila. film 
-> INNER JOIN sakila.film_actor USING(film_id) 


-> WHERE film.film_id > 500 


因为 这 里 使 用 了 film_ id 字段 进行 等 值 关联 ，MySQL 知 道 这 里 
的 WHERE 子 句 不 仅 适 用 于 fm 表 ， 而 且 对 于 fm_actor 表 同样 适 
用 。 如 果 使 用 的 是 其 他 的 数据 库 管理 系统 ， 可 能 还 需要 手动 通过 
一 些 条 件 来 告知 优化 器 这 个 WHERE 条 件 适 用 于 两 个 表 ， 那 么 写 
法 就 会 如 下 : 


. WHERE film.film_id > 500 AND film_actor.film_id > 500 
在 MySQL 中 这 是 不 必要 的 ， 这 样 写 反而 会 让 查询 更 难 维护 。 
列表 INO 的 比较 


在 很 多 数据 库 系统 中 ，INO 完 全 等 同 于 多 个 OR 条 件 的 子 句 ， 
因为 这 两 者 是 完全 等 价 的 。 在 MySQL 中 这 点 是 不 成 立 的 ， 
MySQL 将 INO 列 表 中 的 数据 先进 行 排序 ， 然 后 通过 二 分 查找 的 方 
式 来 确定 列表 中 的 值 是 否 满足 条 件 ， 这 是 一 个 O (logn) SRE 
的 操作 ， 等 价 地 转换 成 OR 查 询 的 复杂 度 为 O (nm ， 对 于 INO 列 表 
中 有 大 量 取 值 的 时 候 ，MySQL 的 处 理 速 度 将 会 更 快 。 


上 面 列 举 的 远 不 是 MySQL 优 化 器 的 全 部 ，MySQL 还 会 做 大 量 其 
他 的 优化 ， 即 使 本 章 全 部 用 来 描述 也 会 篇 幅 不 足 ， 但 上 面 的 这 些 例子 
已 经 足以 让 大 家 明白 优化 器 的 复杂 性 和 智能 性 了 。 如 果 说 从 上 面 这 段 


讨论 中 我 们 应 该 学 到 什么 ， 那 就 是 “不 要 自 以 为 比 优 化 器 更 聪明 ”。 最 
终 你 可 能 会 占 点 便宜 ， 但 是 更 有 可 能 会 使 查询 变 得 更 加 复杂 而 难以 维 
护 ， 而 最 终 的 收益 却 为 零 。 让 优化 器 按照 它 的 方式 工作 就 可 以 了 。 


当然 ， 虽 然 优 化 器 已 经 很 智能 了 ， 但 是 有 时 候 也 无 法 给 出 最 优 的 
结果 。 有 时 候 你 可 能 比 优化 器 更 了 解数 据 ， 例 如 ， 由 于 应 用 逻辑 使 得 
某 些 条 件 总 是 成 立 ， 还 有时， 优化 器 缺少 某 种 功能 特性 ， 如 哈 希 索 
Sl; 再 如 前 面 提 到 的 ， 从 优化 器 的 执行 成 本 角度 评估 出 来 的 最 优 执行 
计划 ， 实 际 运行 中 可 能 比 其 他 的 执行 计划 更 慢 。 


如 果 能 够 确认 优化 器 给 出 的 不 是 最 住 选 择 ， 并 且 清 楚 背 后 的 原 
理 ， 那 么 也 可 以 帮助 优化 器 做 进一步 的 优化 。 例 如 ， 可 以 在 查询 中 添 
加 hint 提 示 ， 也 可 以 重 写 查询 ， 或 者 重新 设计 更 优 的 库 表 结构 ， 或 者 
添加 更 合适 的 索引 。 


数据 和 索引 的 统计 信息 


重新 回忆 一 下 图 1-1，MySQL 架 构 由 多 个 层次 组 成 。 在 服务 器 层 
有 查询 优化 器 ， 却 没有 保存 数据 和 索引 的 统计 信息 。 统 计 信 息 由 存储 
引擎 实现 ， 不 同 的 存储 引擎 可 能 会 存储 不 同 的 统计 信息 (也 可 以 按照 
不 同 的 格式 存储 统计 信息 ) 。 有 某 些 引擎 ， 例 如 Archive 引 擎 ， 则 根本 就 
没有 存储 任何 统计 信息 ! 


因为 服务 器 层 没 有 任何 统计 信息 ， 所 以 MySQL 查 询 优化 器 在 生成 
查询 的 执行 计划 时 ， 需 要 向 存储 引擎 获取 相应 的 统计 信息 。 存 储 引 擎 
则 提供 给 优化 器 对 应 的 统计 信息 ， 包 括 : 每 个 表 或 者 索引 有 多 少 个 页 
面 、 每 个 表 的 每 个 索引 的 基数 是 多 少 、 数 据 行 和 索引 长 度 、 索 引 的 分 


布 信息 等 。 优 化 器 根据 这 些 信息 来 选择 一 个 最 优 的 执行 计划 。 在 后 面 
的 小 节 中 我 们 将 看 到 统计 信息 是 如 何 影 响 优化 器 的 。 


MySQL 如 何 执行 关联 查询 


MySQL 中 “关联 ”均一 词 所 包含 的 意义 比 一 般 意义 上 理解 的 要 更 广 
泛 。 总 的 来 说 ，MySQL 认 为 任何 一 个 查询 都 是 一 次 “关联 ”一 一 并 不 仅 
仅 是 一 个 查询 需要 到 两 个 表 匹 配 才 叫 关 联 ， 所 以 在 MySQL 中 ， 每 一 个 
查询 ， 每 一 个 片段 (包括 子 查 询 ， 甚 至 基于 单 表 的 SELECT) 都 可 能 
是 关联 。 


所 以 ， 理 解 MySQL 如 何 执行 关联 查询 至 关 重 要 。 我 们 先 来 看 一 个 
UNION 查 询 的 例子 。 对 于 UNION 查 询 ，MySQL 先 将 一 系列 的 单个 查 
询 结 果 放 到 一 个 临时 表 中 ， 然 后 再 重新 读 出 临时 表 数 据 来 完成 UNION 
查询 。 在 MySQL 的 概念 中 ， 每 个 查询 都 是 一 次 关联 ， 所 以 读 取 结 果 临 
时 表 也 是 一 次 关联 。 


当前 MySQL 关 联 执行 的 策略 很 简单 : MySQL 对 任何 关联 都 执行 
伦 套 循环 关联 操作 ， 即 MySQL 先 在 一 个 表 中 循环 取出 单条 数据 ， 然 后 
再 能 套 循环 到 下 一 个 表 中 寻找 匹配 的 行 ， 依 次 下 去 ， 直 到 找到 所 有 表 
中 匹配 的 行为 止 。 然 后 根据 各 个 表 匹 配 的 行 ， 返 回 查询 中 需要 的 各 个 
列 。MySQL 会 尝试 在 最 后 一 个 关联 表 中 找到 所 有 匹配 的 行 ， 如 果 最 后 
一 个 联 表 无 法 找到 更 多 的 行 以 后 ，MySQL 返 回 到 上 一 层次 关联 表 ， 看 
是 否 能够 找到 更 多 的 匹配 记录 ， 依 此 类 推 和 迭代 执行 。 避 ) 


按照 这 样 的 方式 查找 第 一 个 表 记 录 ， 再 舱 套 查询 下 一 个 关联 表 ， 
然后 回溯 到 上 一 个 表 ， 在 MySQL 中 是 通过 藤 套 循环 的 方式 实现 一 一 正 


如 其 名 * 衣 套 循环 天 联 ”。 请 看 下 面 的 例子 中 的 简单 查询 : 


mysql> SELECT tbl1.col1, tbl2.col2 
-> FROM tbl1 INNER JOIN tbl2 USING(col3) 
-> WHERE tbl1.col1 IN(5,6) 


假设 MySQL 按 照 查询 中 的 表 顺 序 进行 关联 操作 ， 我 们 则 可 以 用 下 
面 的 伪 代 码 表示 MySQL 将 如 何 完成 这 个 查询 : 


outer_iter = iterator over tbli where coli IN(5,6) 
outer_row = outer_iter.next 
while outer_row 
inner_iter = iterator over tbl2 where col3 = 
outer_row.col3 
inner_row = inner_iter.next 
while inner_row 
output [ outer_row.col1, inner_row.col2 | 
inner_row = inner_iter.next 
end 
outer_row = outer_iter.netxt 


end 


上 面 的 执行 计划 对 于 单 表 查询 和 多 表 关 联 查 询 都 适用 ， 如 果 是 一 
个 单 表 查询 ， 那 么 只 需 完 成 上 面 外 层 的 基本 操作 。 对 于 外 连接 上 面 的 
执行 过 程 仍然 适用 。 例 如 ， 我 们 将 上 面 查 询 修改 如 下 : 


mysql> SELECT tbl1.col1, tbl2.col2 
-> FROM tbl1 LEFT OUTER JOIN tb12 USING(col3) 
-> WHERE tbli.coli IN(5,6); 


对 应 的 伪 代 码 如 下 ， 我 们 用 黑体 标示 不 同 的 部 分 : 


outer_iter = iterator over tbli where coli IN(5,6) 
outer_row = outer_iter.next 
while outer_row 
inner_iter = iterator over tbl2 where col3 = 
outer_row.col3 
inner_row = inner_iter.next 
if inner_row 
while inner_row 
output [ outer_row.coli1, inner_row.col2 | 
inner_row = inner_iter.next 
end 
else 
output [ outer_row.col1, NULL | 
end 
outer_row = outer_iter.next 


end 


另 一 种 可 视 化 查询 执行 计划 的 方法 是 根据 优化 器 执行 的 路 径 绘 制 
出 对 应 的 “ 泳 道 图 ”*”。 如 图 6-2 所 示 ， 绘 制 了 前 面 示例 中 内 连接 的 泳 道 
图 ， 请 从 左 至 右 ， 从 上 至 下 地 看 这 幅 图 。 
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图 6-2: 通过 泳 道 图 展示 MySQL 如 何 完成 关联 查询 


从 本 质 上 说 ，MySQL 对 所 有 的 类 型 的 查询 都 以 同样 的 方式 运行 。 
例如 ，MySQL 在 FROM 子 句 中 遇 到 子 查询 时 ， 先 执行 子 查询 并 将 其 结 
果 放 到 一 个 临时 表 中 4， 然后 将 这 个 临时 表 当 作 一 个 普通 表 对 待 〈 正 
如 其 名 “派生 表 ”) 。MySQL 在 执行 UNION 查 询 时 也 使 用 类 似 的 临时 
表 ， 在 遇 到 右 外 连接 的 时 候 ，MySQL 将 其 改写 成 等 价 的 左 外 连接 。 简 
而 言 之 ， 当 前 版 本 的 MySQL 会 将 所 有 的 查询 类 型 都 转换 成 类 似 的 执行 
irk, 2 


不 过 ， 不 是 所 有 的 查询 都 可 以 转换 成 上 面 的 形式 。 例 如 ， 全 外 连 
接 就 无 法 通过 肯 套 循环 和 回溯 的 方式 完成 ， 这 时 当 发 现 关 联 表 中 没有 
找到 任何 匹配 行 的 时 候 ， 则 可 能 是 因为 天 联 是 恰好 从 一 个 没有 任何 匹 
配 的 表 开 始 。 这 大 概 也 是 MySQL 并 不 支持 全 外 连接 的 原因 。 还 有 些 场 
景 ， 虽 然 可 以 转换 成 能 套 循环 的 方式 ， 但 是 效率 却 非 党 差 ， 后 面 我 们 
会 看 一 个 这 样 的 例子 。 


执行 计划 


和 很 多 其 他 关系 数据 库 不 同 ，MySQL 并 不 会 生成 查询 字 节 码 来 执 
行 查询 。MySQL 生 成 查询 的 一 棵 指令 树 ， 然 后 通过 存储 引擎 执行 完成 
这 棵 指令 树 并 返回 结果 。 最 终 的 执行 计划 包含 了 重 构 查询 的 全 部 信 
息 。 如 果 对 某 个 查询 执行 EXPLAIN EXTENDED 后 ， 再 执行 SHOW 
WARNINGS， 就 可 以 看 到 重 构 出 的 查询 (18)。 


任何 多 表 碍 询 都 可 以 使 用 一 柠 树 表示 ， 例 如 ， 可 以 按照 图 6-3 执 行 
一 个 四 表 的 关联 操作 。 
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图 6-3: 多 表 关 联 的 一 种 方式 


在 计算 机 科学 中 ， 这 被 称 为 一 颗 平 衡 树 。 但 是 ， 这 并 不 是 MySQL 
执行 查询 的 方式 。 正 如 我 们 前 面 章 节 介 绍 的 ，MySQL 总 是 从 一 个 表 开 
始 一 直 弦 套 循环 、 回 溯 完 成 所 有 表 关 联 。 所 以 ，MySQL 的 执行 计划 总 
是 如 图 6-4 所 示 ， 是 一 棵 左 测 深度 优先 的 树 。 
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图 6-4: MySQL 如 何 实现 多 表 关 联 


关联 查询 优化 器 


MySQL 优 化 器 最 重要 的 一 部 分 就 是 关联 查询 优化 ， 它 决定 了 多 个 
表 关 联 时 的 顺序 。 通 常 多 表 关 联 的 时 候 ， 可 以 有 多 种 不 同 的 关联 顺序 
来 获得 相同 的 执行 结果 。 关 联 查 询 优化 器 则 通过 评估 不 同 顺 序 时 的 成 
本 来 选择 一 个 代价 最 小 的 关联 顺序 。 


下 面 的 查询 可 以 通过 不 同 顺 序 的 关联 最 后 都 获得 相同 的 结果 : 


mysql> SELECT film.film_id, film.title, film.release_year, 
actor.actor_id, 
-> actor.first_name, actor.last_name 
-> FROM sakila. film 
-> INNER JOIN sakila.film_actor USING(film_id) 


-> INNER JOIN sakila.actor USING(actor_id); 


容易 看 出 ， 可 以 通过 一 些 不 同 的 执行 计划 来 完成 上 面 的 查询 。 例 
如 ，MySQL 可 以 从 film 表 开始 ， 使 用 film_actor 表 的 索引 film_id 来 查找 
对 应 的 actor_id 值 ， 然 后 再 根据 actor 表 的 主键 找到 对 应 的 记录 。 Oracle 
用 户 会 用 下 面 的 术语 描述 : “film 表 作为 驱动 表 先 查找 fle_actor 表 ， 然 
后 以 此 结果 为 驱动 表 再 查找 actor 表 ”。 这 样 做 效率 应 该 会 不 错 ， 我 们 再 
使 用 EXPLAIN 看 看 MySQL 将 如 何 执行 这 个 查询 : 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1 row 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 1 


select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


SIMPLE 
actor 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
200 


火炎 火炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 

SIMPLE 

film_actor 

ref 

PRIMARY, idx_fk_film_id 
PRIMARY 

2 
sakila.actor.actor_id 
1 


Using index 


火炎 大火 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


炎炎 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


id: 
select_type: 


table: 


type: 


1 
SIMPLE 
film 


eq_ref 


row 


row 


possible_keys: PRIMARY 
key: PRIMARY 
key_len: 2 
ref: sakila.film_actor.film_id 
rows: 1 


Extra: 


这 和 我 们 前 面 给 出 的 执行 计划 完全 不 同 。MySQL 从 actor 表 开始 
(我 们 从 上 面 的 EXPLAIN 结 果 的 第 一 行 输出 可 以 看 出 这 点 ) ， 然 后 与 
我 们 前 面 的 计划 按照 相反 的 顺序 进行 关联 。 这 样 是 否 效率 更 高 呢 ? 我 
们 来 看 看 ， 我 们 先 使 用 STRAIGHT JOIN 关键 字 ， 按 照 我 们 之 前 的 顺 
序 执行 ， 这 里 是 对 应 的 EXPLAIN 输 出 结果 : 


mysql> EXPLAIN SELECT STRAIGHT_JOIN film.film_id...\G 


ere Tere ee Te Tee ee ee ee eT 1. row 
OO TOR IO TOR IO ITO TO I KR IK 
id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible_keys: PRIMARY 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 951 


Extra: 


火炎 大大 大大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


类 炎炎 火炎 火炎 火炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 
SIMPLE 
film actor 


ref 


PRIMARY, idx_fk_film_id 


idx_fk_film id 
2 


sakila.film.film_id 


1 


Using index 


火炎 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


炎炎 火炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 类 


id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


1 
SIMPLE 
actor 
eq_ref 
PRIMARY 
PRIMARY 
2 


sakila.film_actor.actor_id 


1 


row 


row 


我 们 来 分 析 一 下 为 什么 MySQL 会 将 关联 顺序 倒转 过 来 : 可 以 看 


到 ， 关 联 顺 序 倒转 后 的 第 一 个 关联 表 
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种 关联 顺序 下 ， 第 二 个 和 第 三 个 关联 表 都 是 根据 索引 查询 ， 速 度 都 很 
R, 不 同 的 是 需要 扫描 的 索引 项 的 数量 是 不 同 的 : 


。 将 flm 表 作为 第 一 个 关联 表 时 ， 会 找到 951 条 记录 ， 然 后 对 
film_actor 和 actor 表 进行 冤 套 循环 查询 。 

。 如果 MySQL 选 择 首 先 扫描 actor 表 ， 只 会 返回 200 条 记录 进行 后 面 
Hake (at if]. 


Rit, EERTE RLA HT Eb B RMT AE 
操作 。 为 了 验证 优化 器 的 选择 是 否 正确 ， 我 们 单独 执行 这 两 个 查询 ， 
并 且 看 看 对 应 的 Last_query_cost 状 态 值 。 我 们 看 到 倒转 的 关联 顺序 的 
预 估 成 本 (0 为 241， 而 原来 的 查询 的 预 估 成 本 为 1 154。 


这 个 简单 的 例子 主要 想 说 明 MySQL 是 如 何 选择 合适 的 关联 顺序 来 
让 查询 执行 的 成 本 尽 可 能 低 的 。 重 新 定义 关联 的 顺序 是 优化 器 非常 重 
要 的 一 部 分 功能 。 不 过 有 的 时 候 ， 优 化 器 给 出 的 并 不 是 最 优 的 关联 顺 
序 。 这 时 可 以 使 用 STRAIGHT JOIN 关键 字 重 写 查 询 ， 让 优化 器 按照 
你 认为 的 最 优 的 关联 顺序 执行 一 一 不 过 老实 说 ， 人 的 判断 很 难 那么 精 
准 。 绝 大 多 数 时 候 ， 优 化 器 做 出 的 选择 都 比 普通 人 的 判断 要 更 准确 。 


天 联 优化 器 会 尝试 在 所 有 的 关联 顺序 中 选择 一 个 成 本 最 小 的 来 生 
成 执行 计划 树 。 如 果 可 能 ， 优 化 器 会 遍历 每 一 个 表 然 后 逐个 做 骨 套 循 
环 计算 每 一 棵 可 能 的 执行 计划 树 的 成 本 ， 最 后 返回 一 个 最 优 的 执行 计 
划 。 


不 过 ， 糟 糕 的 是 ， 如 果 有 超过 n 个 表 的 关联 ， 那 么 需要 检查 n 的 阶 
乘 种 关联 顺序 。 我 们 称 之 为 所 有 可 能 的 执行 计划 的 “搜索 空间 ”， 搜 索 
空间 的 增长 速度 非 市 块 一 一 例如 ， 若 是 10 个 表 的 关联 ， 那 么 共有 


3628800 种 不 同 的 关联 顺序 ! 当 搜 索 空 间 非常 大 的 时 候 ， 优 化 器 不 可 能 
逐一 评估 每 一 种 关联 顺序 的 成 本 。 这 时 ， 优 化 器 选择 使 用 “ 贪 梦 ” 搜 索 
的 方式 查找 “最 优 ” 的 关联 顺序 。 实 际 上 ， 当 需要 关联 的 表 超 过 
optimizer_search_depth 的 限制 的 时 候 ， 就 会 选择 “ 贫 禁 ”搜索 模式 了 
(optimizer_search_depth 参 数 可 以 根据 需要 指定 大 小 ) 。 


在 MySQL 这 些 年 的 发 展 过 程 中 ， 优 化 器 积累 了 很 多 “启发 式 ” 的 优 
化 策略 来 加 速 执 行 计划 的 生成 。 绝 大 多 数 情况 下 ， 这 都 是 有 效 的 ， 但 
因为 不 会 去 计算 每 一 种 关联 顺序 的 成 本 ， 所 以 偶尔 也 会 选择 一 个 不 是 
最 优 的 执行 计划 。 


有 时 ， 各 个 查询 的 顺序 并 不 能 随意 安排 ， 这 时 关联 优化 器 可 以 根 
据 这 些 规则 大 大 减少 搜索 空间 ， 例 如 ， 左 连接 、 相 关子 查询 (后 面 我 
将 继续 讨论 子 查询 ) 。 这 是 因为 ， 后 面 的 表 的 查询 需要 依赖 于 前 面 表 
的 查询 结果 。 这 种 依赖 关系 通常 可 以 帮助 优化 器 大 大 减少 需要 扫描 的 
执行 计划 数量 。 


排序 优化 


无 论 如 何 排 序 都 是 一 个 成 本 很 高 的 操作 ， 所 以 从 性 能 角度 考虑 ， 
应 尽 可 能 避免 排序 或 者 尽 可 能 避免 对 大 量 数 据 进行 排序 。 


在 第 3 章 中 我 们 已 经 看 到 MySQL 如 何 通过 索引 进行 排序 。 当 不 能 
使 用 索引 生成 排序 结果 的 时 候 ，MySQL 需 要 自己 进行 排序 ， 如 果 数 据 
量 小 则 在 内 存 中 进行 ， 如 果 数 据 量 大 则 需要 使 用 磁盘 ， 不 过 MySQL 将 
这 个 过 程 统 一 称 为 文件 排序 (filesort) ， 即 使 完全 是 内 存 排序 不 需要 
任何 磁盘 文件 时 也 是 如 此 。 


如 果 需 要 排序 的 数据 量 小 于 “排序 缓冲 区 *，MySQL 使 用 内 存 进行 
“快速 排序 ”操作 。 如 果 内 存 不 够 排序 ， 那 么 MySQL 会 先 将 数据 分 块 ， 
对 每 个 独立 的 块 使 用 “快速 排序 ”进行 排序 ， 并 将 各 个 块 的 排序 结果 存 
放 在 磁盘 上 ， 然 后 将 各 个 排 好 序 的 块 进行 合并 (merge) ， 最 后 返回 排 
序 结果 。 


MySQL 有 如 下 两 种 排序 算法 : 
两 次 传输 排序 (旧版 本 使 用 ) 


读 取 行 指针 和 需要 排序 的 字段 ， 对 其 进行 排序 ， 然 后 再 根据 
排序 结果 读 取 所 需要 的 数据 行 。 


这 需要 进行 两 次 数据 传输 ， 即 需要 从 数据 表 中 读 取 两 次 数 
据 ， 第 二 次 读 取 数 据 的 时 候 ， 因 为 是 读 取 排 序列 进行 排序 后 的 所 
有 记录 ， 这 会 产生 大 量 的 随机 1/O， 所 以 两 次 数据 传输 的 成 本 非常 
高 。 当 使 用 的 是 MyISAM 表 的 时 候 ， 成 本 可 能 会 更 高 ， 因 为 
MyISAM 使 用 系统 调用 进行 数据 的 读 取 (MyISAM 非 常 依赖 操作 
系统 对 数据 的 缓存 ) 。 不 过 这 样 做 的 优点 是 ， 在 排序 的 时 候 存 储 
尽 可 能 少 的 数据 ， 这 就 让 “排序 缓冲 区 ”2) 中 可 能 容纳 尽 可 能 多 的 
行 数 进行 排序 。 

单 次 传输 排序 (新 版 本 使 用 ) 

先 读 取 查询 所 需要 的 所 有 列 ， 然 后 再 根据 给 定 列 进行 排序 ， 

最 后 直接 返回 排序 结果 。 这 个 算法 只 在 MySQL 4.1 和 后 续 更 新 的 


版 本 才 引 入 。 因 为 不 再 需要 从 数据 表 中 读 取 两 次 数据 ， 对 于 IO 密 
集 型 的 应 用 ， 这 样 做 的 效率 高 了 很 多 。 另 外 ， 相 比 两 次 传输 排 


序 ， 这 个 算法 只 需要 一 次 顺序 IO 读 取 所 有 的 数据 ， 而 无 须 任 何 的 
随机 WO。 缺 点 是 ， 如 果 需 要 返回 的 列 非常 多 、 非 党 大， 会 额外 占 
用 大 量 的 空间 ， 而 这 些 列 对 排序 操作 本 身 来 说 是 没有 任何 作用 
的 。 因 为 单条 排序 记录 很 大 ， 所 以 可 能 会 有 更 多 的 排序 块 需要 合 
并 。 


很 难说 哪个 算法 效率 更 高 ， 两 种 算法 都 有 各 自 最 好 和 最 糟 的 
场景 。 当 查询 需要 所 有 列 的 总 长 度 不 超过 参数 
max_length_for_sort_data 时 ，MySQL 使 用 * 单 次 传输 排序 ”， 可 以 
通过 调整 这 个 参数 来 影响 MySQL 排 序 算法 的 选择 。 关 于 这 个 细 
节 ， 可 以 参考 第 8 章 “ 文 件 排序 优化 ”。 


MySQL 在 进行 文件 排序 的 时 候 需 要 使 用 的 临时 存储 空间 可 能 会 比 
想象 的 要 大 得 多 。 原 因 在 于 MySQL 在 排序 时 ， 对 每 一 个 排序 记录 都 会 
分 配 一 个 足够 长 的 定 长 空间 来 存放 。 


这 个 定 长 空间 必须 足够 长 以 容纳 其 中 最 长 的 字符 串 ， 例 如 ， 如 果 
是 VARCHAR 列 则 需要 分 配 其 完整 长 度 ; 如 果 使 用 UTF-8 字 符 集 ， 那 么 
MySQL 将 会 为 每 个 字符 预 留 三 个 字 节 。 我 们 曾经 在 一 个 库 表 结构 设计 
不 合理 的 案例 中 看 到 ， 排 序 消耗 的 临时 空间 比 磁 盘 上 的 原 表 要 大 很 多 
倍 。 


在 关联 查询 的 时 候 如 果 需 要 排序 ，MySQL 会 分 两 种 情况 来 处 理 这 
样 的 文件 排序 。 如 果 ORDER BY 子 句 中 的 所 有 列 都 来 自 关 联 的 第 一 个 
表 ， 那 么 MySQL 在 关联 处 理 第 一 个 表 的 时 候 就 进行 文件 排序 。 如 果 是 
这 样 ， 那 么 在 MySQL 的 EXPLAIN 结 果 中 可 以 看 到 Extra 字 段 会 
“Using filesort”。 除 此 之 外 的 所 有 情况 ，MySQL 都 会 先 将 关联 的 结果 
存放 到 一 个 临时 表 中 ， 然 后 在 所 有 的 关联 都 结束 后 ， 再 进行 文件 排 


序 。 这 种 情况 下 ， 在 MySQL 的 EXPLAIN 结 果 的 Extra 字 段 可 以 看 到 
“Using temporary;Using filesort*。 如 果 查 询 中 有 LIMIT 的 话 ，LIMIT 也 
会 在 排序 之 后 应 用 ， 所 以 即使 需要 返回 较 少 的 数据 ， 临 时 表 和 需要 排 
序 的 数据 量 仍然 会 非常 大 。 


MySQL 5.6 在 这 里 做 了 很 多 重要 的 改进 。 当 只 需要 返回 部 分 排序 
结果 的 时 候 ， 例 如 使 用 了 LIMIT 子 句 ，MySQL 不 再 对 所 有 的 结果 进行 
排序 ， 而 是 根据 实际 情况 ， 选 择 抛弃 不 满足 条 件 的 结果 ， 然 后 再 进行 
排序 。 


6.4.4 ”查询 执行 引擎 


在 解析 和 优化 阶段 ，MySQL 将 生成 查询 对 应 的 执行 计划 ， 
MySQL 的 查询 执行 引擎 则 根据 这 个 执行 计划 来 完成 整个 查询 。 这 里 执 
行 计划 是 一 个 数据 结构 ， 而 不 是 和 很 多 其 他 的 关系 型 数据 库 那 样 会 生 
成 对 应 的 字 节 码 。 


相对 于 查询 优化 阶段 ， 查 询 执 行 阶段 不 是 那么 复杂 : MySQL 只 是 
简单 地 根据 执行 计划 给 出 的 指令 逐步 执行 。 在 根据 执行 计划 逐步 执行 
的 过 程 中 ， 有 大 量 的 操作 需要 通过 调用 存储 引擎 实现 的 接口 来 完成 ， 
这 些 接口 也 就 是 我 们 称 为 “handler APP 的 接口 。 查 询 中 的 每 一 个 表 由 
一 个 handler 的 实例 表示 。 前 面 我 们 有 意 忽略 了 这 点 ， 实 际 上 ，MySQL 
在 优化 阶段 就 为 每 个 表 创建 了 一 个 handler 实 例 ， 优 化 器 根据 这 些 实例 
的 接口 可 以 获取 表 的 相关 信息 ， 包 括 表 的 所 有 列 名 、 索 引 统计 信息 ， 
等 等 。 


存储 引擎 接口 有 着 非常 丰富 的 功能 ， 但 是 底层 接口 却 只 有 几 十 
个 ， 这 些 接口 像 * 搭 积木 "一样 能 够 完成 查询 的 大 部 分 操作 。 例 如 ， 有 
一 个 查询 某 个 索引 的 第 一 行 的 接口 ， 再 有 一 个 查询 某 个 索引 条 目的 下 
一 个 条 目的 功能 ， 有 了 这 两 个 功能 我 们 就 可 以 完成 全 索引 扫描 的 操作 
了 。 这 种 简单 的 接口 模式 ， 让 MySQL 的 存储 引擎 插件 式 架构 成 为 可 
能 ， 但 是 正如 前 面 的 讨论 ， 也 给 优化 器 带 来 了 一 定 的 限制 。 


gL T EEN F BOEEN handler FER. HIS, EIMS OER BT ae MAAR 


a 
a, 
food 


handler 可 能 会 实现 自己 的 级 别 的 、 更 细 粒 度 的 锁 ， 如 InnoDB 就 实现 了 自己 的 行 基本 锁 ， 但 这 
并 不 能 代替 服务 器 层 的 表 锁 。 正 如 我 们 第 1 章 所 介绍 的 ， 如 果 是 所 有 存储 引擎 共有 的 特性 则 由 
服务 器 层 实 现 ， 比 如 时 间 和 日 期 函数 、 视 图 、 触 发 器 等 。 


为 了 执行 查询 ，MySQL 只 需要 重复 执行 计划 中 的 各 个 操作 ， 直 到 
完成 所 有 的 数据 查询 。 


6.4.5 ”返回 结果 给 客户 端 


查询 执行 的 最 后 一 个 阶段 是 将 结果 返回 给 客户 端 。 即 使 查询 不 需 
要 返回 结果 集 给 客户 端 ，MySQL 仍 然 会 返回 这 个 查询 的 一 些 信息 ， 如 
该 查询 影响 到 的 行 数 。 


如 果 查 询 可 以 被 缓存 ， 那 么 MySQL 在 这 个 阶段 也 会 将 结果 存放 到 
查询 缓存 中 。 


MySQL 将 结果 集 返 回 客 户 端 是 一 个 增 量 、 逐 步 返回 的 过 程 。 例 
如 ， 我 们 回头 看 看 前 面 的 关联 操作 ， 一 旦 服务 器 处 理 完 最 后 一 个 关联 


表 ， 开 始 生成 第 一 条 结果 时 ，MySQL 就 可 以 开始 向 客户 端 逐步 返回 结 
果 集 了 。 


这 样 处 理 有 两 个 好 处 : 服务 器 端 无 须 存 储 太 多 的 结果 ， 也 就 不 会 
因为 要 返回 太 多 结果 而 消耗 太 多 内 存 。 另 外 ， 这 样 的 处 理 也 让 MySQL 
客户 端 第 一 时 间 获 得 返回 的 结果 (2)。 


结果 集中 的 每 一 行 都 会 以 一 个 满足 MySQL 客 户 端 /服务 器 通信 协 
议 的 封包 发 送 ， 再 通过 TCP 协 议 进 行 传输 ， 在 TCP 传 输 的 过 程 中 ， 可 
能 对 MySQL 的 封包 进行 缓存 然后 批量 传输 。 


6.5 ”MySQL 查询 优化 器 的 局 限 性 


MySQL 的 万 能 “ 株 套 循环 * 并 不 是 对 每 种 查询 都 是 最 优 的 。 不 过 还 
好 ，MySQL 查 询 优 化 器 只 对 少 部 分 查询 不 适用 ， 而 且 我 们 往往 可 以 通 
过 改写 查询 让 MySQL 高 效 地 完成 工作 。 还 有 一 个 好 消息 ，MySQL 5.6 
版 本 正式 发 布 后 ， 会 消除 很 多 MySQL 原 本 的 限制 ， 让 更 多 的 查询 能 够 
以 尽 可 能 高 的 效率 完成 。 


6.5.1 关联 子 查询 


MySQL 的 子 查询 实现 得 非常 糟 烘 。 最 糟糕 的 一 类 查询 是 WHERE 
条 件 中 包含 IN() 的 子 查询 语句 。 例 如 ， 我 们 希望 找到 Sakila 数 据 库 中 ， 
演员 Penelope Guiness (他 的 actor_id 为 1) 参 演 过 的 所 有 影片 信息 。 很 
自然 的 ， 我 们 会 按照 下 面 的 方式 用 子 查询 实现 : 


mysql> SELECT * FROM sakila. film 
-> WHERE film_id IN( 
-> SELECT film_id FROM sakila.film_actor WHERE 


actor_id = 1); 


因为 MySQL 对 INO 列 表 中 的 选项 有 专门 的 优化 策略 ， 一 般 会 认为 
MySQL 会 先 执行 子 查询 返回 所 有 包含 actor_ id 为 1 的 fiim id。 一 般 来 
说 ，INO 列 表 查 询 速 度 很 快 ， 所 以 我 们 会 认为 上 面 的 查询 会 这 样 执 


行 : 


-- SELECT * FROM sakila.film-- SELECT GROUP_CONCAT(film_id) 
FROM sakila.film_actor WHERE actor_id = 1; 

-- Result: 
1,23,25,106,140,166, 277, 361, 438, 499, 506,509, 605, 635, 749, 832, 939 
, 970, 980 

SELECT * FROM sakila. film 


WHERE film_id 


IN(1, 23, 25,106, 140, 166, 277, 361, 438, 499, 506, 509, 605, 635, 749, 832, 


939,970,980); 

很 不 幸 ，MySQL 不 是 这 样 做 的 。MySQL 会 将 相关 的 外 层 表 压 到 
子 查 询 中 ， 它 认为 这 样 可 以 更 高 效率 地 查找 到 数据 行 。 也 就 是 说 ， 
MySQL 会 将 查询 改 与 成 下 面 的 样子 : 


SELECT * FROM sakila. film 
WHERE EXISTS ( 
SELECT * FROM sakila.film_actor WHERE actor_id = 


AND film_actor.film_id = film. film_id); 


这 时 ， 子 查询 需要 根据 film id 来 关联 外 部 表 flm ， 因 为 需 
film_id 字 段 ， 所 以 MySQL 认 为 无 法 先 执 行 这 个 子 查询 。 通 过 EXPLAIN 
我 们 可 以 看 到 子 查 询 是 一 个 相关 子 查 询 (DEPENDENT SUBQUERY) 
(可 以 使 用 EXPLAIN EXTENDED 来 查看 这 个 查询 被 改写 成 了 什么 样 
F) : 


me EXPLAIN SELECT * FROM sakila.film ...; 


+----+-------------------- +------------ +-------- +------------------------ + 
| id | select type | table | type | possible keys | 
十- 一 十- 一 + 
| 1 | PRIMARY | film | ALL | NULL | 
| 2 | DEPENDENT SUBQUERY | film actor | eq ref | PRIMARY, idx fk film id 

+----+-------------------- 二 -一 + 


根据 EXPLAIN 的 输出 我 们 可 以 看 到 ，MySQL 先 选择 对 file 表 进行 
全 表 扫 描 ， 然 后 根据 返回 的 flm_id 逐 个 执行 子 查询 。 如 果 是 一 个 很 小 
的 表 ， 这 个 查询 糟糕 的 性 能 可 能 还 不 会 引起 注意 ， 但 是 如 果 外 层 的 表 
是 一 个 非常 大 的 表 ， 那 么 这 个 查询 的 性 能 会 非常 糟糕 。 当 然 我 们 很 容 
易 用 下 面 的 办 法 来 重 写 这 个 查询 : 


mysql> SELECT film.* FROM sakila. film 
-> INNER JOIN sakila.film_actor USING(film_id) 


-> WHERE actor_id = 1; 


一 个 优化 的 办 法 是 使 用 函数 GROUP_CONCATO 在 INO 中 构造 一 
个 由 逗号 分 隔 的 列表 。 有 时 这 比 上 面 的 使 用 关联 改写 更 快 。 因 为 使 用 
INO 加 子 查询 ， 性 能 经 常会 非常 糟 ， 所 以 通常 建议 使 用 EXISTSO 等 效 
的 改写 查询 来 获取 更 好 的 效率 。 下 面 是 另 一 种 改写 INO 加 子 查询 的 办 
A 


mysql> SELECT * FROM sakila. film 
-> WHERE EXISTS( 


-> SELECT * FROM sakila.film_actor WHERE actor_id = 


-> AND film_actor.film_id = film.film_id); 


E ds 这 里 讨论 的 优化 器 的 限制 直到 Oracle 推 出 的 MySQL 5.5 都 一 直人 存在 。MySQL 的 另 一 


个 分 支 MariaDB 则 在 原 有 的 优化 器 的 基础 上 做 了 大 量 的 改进 ， 例 如 这 里 提 到 的 INO 加 子 查询 改 


进 。 


如 何 用 好 关联 子 查询 


并 不 是 所 有 关联 子 查询 的 性 能 都 会 很 差 。 如 果 有 人 跟 你 说 :“ 别 用 
关联 子 查询 ”"， 那 么 不 要 理 他 。 先 测试 ， 然 后 做 出 自己 的 判断 。 很 多 时 
候 ， 关 联 子 查询 是 一 种 非常 合理 、 自 然 ， 甚 至 是 性 能 最 好 的 写法 。 我 
们 看 看 下 面 的 例子 : 


mysql> EXPLAIN SELECT film id, language id FROM sakila.film 
-> WHERE NOT EXISTS( 


-> SELECT * FROM sakila.film_actor 
-> WHERE film_actor.film_id = film. film_id 


-> )\G 


ORO TOR IO OR TOR IO OR TOR IO RK IK 1. row 
ere Tee ee Te ee ee ee eee eT 
id: 1 

select_type: PRIMARY 
table: film 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 951 


Extra: Using where 


RRO TOR IOI TO TOR IO ITO TOR I KR IK 2. row 
ere Te ee ee Te Tee ee eee ee eT 
id: 2 
select_type: DEPENDENT SUBQUERY 
table: film_actor 
type: ref 
possible_keys: idx_fk_film_id 
key: idx_fk_film_id 
key_len: 2 
ref: film.film_id 
rows: 2 


Extra: Using where; Using index 


一 般 会 建议 使 用 左 外 连接 (LEFT OUTER JOIN) 重 写 该 查询 ， 以 


代替 子 查询 。 理 论 上 ， 改 写 后 MySQL 的 执行 计划 完全 不 会 


来 看 这 个 例子 : 


变 。 我 们 


mysql> EXPLAIN SELECT film.film_id, film. language_id 


-> FROM sakila. film 


-> LEFT OUTER JOIN sakila.film_actor USING(film_id) 


-> WHERE film_actor.film_id IS NULL\G 


FOI III IO TIO IOI IAI J. 
id: 
select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 

Extra: 

FORO IOI IO IO TIO IO IO I I 当 
id: 
select_type: 
table: 

type: 
possible_keys: 


key: 


1 
SIMPLE 
film 
ALL 
NULL 
NULL 
NULL 
NULL 
951 


1 

SIMPLE 
film_actor 

ref 
idx_fk_film_id 
idx_fk_film_id 


KKK KKK KKK KK KK KKK KKKKKEE 
row 


类 类 火炎 火炎 类 类 类 类 类 炎炎 火炎 类 类 类 类 类 类 类 
row 


key_len: 2 
ref: sakila.film.film_id 
rows: 2 


Extra: Using where; Using index; Not exists 


可 以 看 到 ， 这 里 的 执行 计划 基本 上 一 样 ， 下 面 是 一 些微 小 的 区 


表 flm_actor 的 访问 类 型 一 个 是 DEPENDENT SUBQUERY, ， 而 另 一 
个 是 SIMPLE。 这 个 不 同 是 由 于 语句 的 写法 不 同 导 致 的 ， 一 个 是 
普通 查询 ， 一 个 是 子 查询 。 这 对 底层 存储 引擎 接口 来 说 ， 没 有 任 
何不 同 。 

对 flm 表 ， 第 二 个 查询 的 Extra 中 没有 “Using where”， 但 这 不 重 
要 ， 第 二 个 查询 的 USING 子 句 和 第 一 个 查询 的 WHERE 子 句 实 际 
上 是 完全 一 样 的 。 

在 第 二 个 表 film_actor 的 执行 计划 的 Extra 列 有 “Not exists”。 这 是 我 
们 前 面 章节 中 提 到 的 提前 终止 算法 ( early-termination 
algorithm) ，MySQL 通 过 使 用 “Not exists” 优 化 来 避免 在 表 
film_actor 的 索引 中 读 取 任何 额外 的 行 。 这 完全 等 效 于 直接 编写 
NOT EXISTS 子 查询 ， 这 个 执行 计划 中 也 是 一 样 ， 一 旦 匹配 到 一 
行 数据 ， 就 立刻 停止 扫描 。 


所 以 ， 从 理论 上 讲 ，MySQL 将 使 用 完全 相同 的 执行 计划 来 完成 这 


个 查询 。 现 实 世 界 中 ， 我 们 建议 通过 一 些 测试 来 判断 使 用 哪 种 写法 速 
度 会 更 快 。 针 对 上 面 的 案例 ， 我 们 对 两 种 写法 进行 了 测试 ， 表 6-1 中 列 
出 了 测试 结果 。 


表 6-1: NOT EXISTS 和 左 外 连接 的 性 能 比较 


查询 每 秒 查询 数 结果 (QPS) 


NOT EXISTS 子 查询 360 QPS 
LEFT OUTER JOIN 425 QPS 


我 们 的 测试 显示 ， 使 用 子 碍 询 的 写法 要 略微 慢 些 ! 


不 过 每 个 具体 的 案例 会 各 有 不 同 ， 有 时 候 子 查询 写法 也 会 快 些 。 
例如 ， 当 返回 结果 中 只 有 一 个 表 中 的 某 些 列 的 时 候 。 听 起 来 ， 这 种 情 
况 对 于 关联 查询 效率 也 会 很 好 。 具 体 情况 具体 分 析 ， 例 如 下 面 的 关 
联 ， 我 们 希望 返回 所 有 包含 同一 个 演员 参 演 的 电影 ， 因 为 一 个 电影 会 
有 很 多 六 员 参 关 ， 所 以 可 能 会 返回 一 些 重 复 的 记录 : 


mysql> SELECT film.film_id FROM sakila. film 


-> INNER JOIN sakila.film_actor USING(film_id); 


我 们 需要 使 用 DISTINCT 和 GROUP BY 来 移 除 重复 的 记录 : 


mysql> SELECT DISTINCT film.film_id FROM sakila.film 


-> INNER JOIN sakila.film_actor USING(film_id); 


但 是 ， 回 头 看 看 这 个 查询 ， 到 底 这 个 查询 返回 的 结果 集 意 义 是 什 
么 ? 至 少 这 样 的 写法 会 让 SQL 的 意义 很 不 明显 。 如 果 使 用 EXISTS 则 很 
容易 表达 “包含 同一 个 参 演 演员 ”的 逻辑 ， 而 且 不 需要 使 用 DISTINCT 和 
GROUP BY， 也 不 会 产生 重复 的 结果 集 ， 我 们 知道 一 旦 使 用 了 


DISTINCT 和 GROUP BY， 那 么 在 查询 的 执行 过 程 中 ， 通 常 需要 产生 
临时 中 间 表 。 下 面 我 们 用 子 查 询 的 写法 替换 上 面 的 关联 : 


mysql> SELECT film id FROM sakila. film 
-> WHERE EXISTS(SELECT * FROM sakila.film_actor 


-> WHERE film. film_id = film_actor.film_id); 


再 一 次 ， 我 们 需要 通过 测试 来 对 比 这 两 种 写法 ， 哪 个 更 快 一 些 。 
测试 结果 参考 表 6-2。 


表 6-2: EXISTS 和 关联 性 能 对 比 


查询 每 秒 查询 数 结果 (QPS) 


INNER JOIN 185 QPS 
EXISTS 子 查询 325 QPS 


在 这 个 案例 中 ， 我 们 看 到 子 查询 速度 要 比 关 联 查 询 更 快 些 。 


通过 上 面 这 个 详细 的 案例 ， 主 要 想 说 明 两 点 : 一 是 不 需要 听取 那 
些 关 于 子 查询 的 “绝对 真理 ”， 二 是 应 该 用 测试 来 验证 对 子 查询 的 执行 
计划 和 响应 时 间 的 假设 。 最 后 ， 关 于 子 查询 我 们 需要 提 到 的 是 一 个 
MySQL 的 bug。 在 MYSQL 5.1.48 和 之 前 的 版 本 中 ， 下 面 的 写法 会 锁 住 
table2 中 的 一 条 记录 : 


SELECT ... FROM table1 WHERE col = (SELECT ... FROM table2 


WHERE ...); 


如 果 遇 到 该 bug， 子 查询 在 高 并 发 情况 下 的 性 能 ， 融 会 和 在 单线 程 
测试 时 的 性 能 相差 甚 远 。 这 个 bug 的 编号 是 46947， 虽 然 这 个 问题 已 经 


被 修复 了 ， 但 是 我 们 仍然 要 提醒 读者 : 不 要 主观 猜测 ， 应 该 通过 测试 
来 验证 猜想 。 


6.5.2 ”UNION 的 限制 


有 时 ，MySQL 无 法 将 限制 条 件 从 外 层 “ 下 推 " 到 内 层 ， 这 使 得 原本 
能 够 限制 部 分 返回 结果 的 条 件 无 法 应 用 到 内 层 查 询 的 优化 上 。 


如 果 和 希望 UNION 的 各 个 子 句 能 够 根据 LIMIT 只 取 部 分 结果 集 ， 或 
者 希望 能 够 先 排 好 序 再 合并 结果 集 的话 ， 就 需要 在 UNION 的 各 个 子 句 
中 分 别 使 用 这 些 子 句 。 例 如 ， 想 将 两 个 子 查询 结果 联合 起 来 ， 然 后 再 
取 前 20 条 记录 ， 那 么 MySQL 会 将 两 个 表 都 存放 到 同一 个 临时 表 中 ， 然 
后 再 取出 前 20 行 记录 : 


(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name) 
UNION ALL 

(SELECT first_name, last_name 
FROM sakila.customer 

ORDER BY last_name) 


LIMIT 20; 


这 条 查询 将 会 把 actor 中 的 200 条 记录 和 customer 表 中 的 599 条 记录 
存放 在 一 个 临时 表 中 ， 然 后 再 从 临时 表 中 取出 前 20 条 。 可 以 通过 在 
UNION 的 两 个 子 查询 中 分 别 加 上 一 个 LIMIT 20 来 减少 临时 表 中 的 数 
据 : 


(SELECT first_name, last_name 
FROM sakila.actor 

ORDER BY last_name 

LIMIT 20) 
UNION ALL 

(SELECT first_name, last_name 
FROM sakila.customer 

ORDER BY last_name 

LIMIT 20) 


LIMIT 20; 


现在 中 间 的 临时 表 只 会 包含 40 条 记录 了 ， 除 了 性 能 考虑 之 外 ， 在 
这 里 还 需要 注意 一 点 : 从 临时 表 中 取出 数据 的 顺序 并 不 是 一 定 的 ， 所 
以 如 果 想 获得 正确 的 顺序 ， 还 需要 加 上 一 个 全 局 的 ORDER BY 和 
LIMIT 操 作 。 


65.3 ”索引 合并 优化 


在 前 面 的 章节 已 经 讨论 过 ， 在 5.0 和 更 新 的 版 本 中 ， 当 WHERE 子 
句 中 包含 多 个 复杂 条 件 的 时 候 ，MySQL 能 够 访问 单个 表 的 多 个 索引 以 
合并 和 交叉 过 滤 的 方式 来 定位 需要 碍 找 的 行 。 


6.5.4 ”等 值 传递 


某 些 时 候 ， 等 值 传递 会 带 来 一 些 意 想 不 到 的 额外 消耗 。 例 如 ， 有 
一 个 非常 大 的 INO 列 表 ， 而 MySQL 优 化 器 发 现存 在 WHERE、ON 或 者 
USING 的 子 句 ， 将 这 个 列表 的 值 和 另 一 个 表 的 某 个 列 相关 联 。 


那么 优化 器 会 将 INO 列 表 都 复制 应 用 到 关联 的 各 个 表 中 。 通 常 ， 
因为 各 个 表 新 增 了 过 滤 条 件 ， 优 化 器 可 以 更 高 效 地 从 存储 引擎 过 滤 记 
录 。 但 是 如 果 这 个 列表 非常 大 ， 则 会 导致 优化 和 执行 都 会 变 慢 。 在 本 
书写 作 的 时 候 ， 除 了 修改 MySQL 源 代码 ， 目 前 还 没有 什么 办 法 能 够 绕 
过 该 问题 (不 过 这 个 问题 很 少 会 磁 到 ) o 


6.5.5 ”并行 执行 


MySQL 无 法 利用 多 核 特性 来 并 行 执 行 查询 。 很 多 其 他 的 关系 型 数 
据 库 能 够 提供 这 个 特性 ， 但 是 MySQL 做 不 到 。 这 里 特别 指出 是 想 告 i 
读者 不 要 花 时 间 去 尝试 寻找 并 行 执行 查询 的 方法 。 


6.5.6 EXX 


在 本 书写 作 的 时 候 ，MySQL 并 不 支持 哈 希 关联 一 MySQL 的 所 
有 关联 都 是 艇 套 循 环 关 联 。 不 过 ， 可 以 通过 建立 一 个 哈 希 索 引 来 曲线 
地 实现 哈 希 关联 。 如 果 使 用 的 是 Memory 存 储 引 擎 ， 则 索引 都 是 哈 希 索 
引 ， 所 以 关联 的 时 候 也 类 似 于 哈 希 关联 。 可 以 参考 第 5 章 的 “创建 自 定 
义 哈 希 索引 ”部 分 。 另 外 ，MariaDB 已 经 实现 了 真正 的 哈 希 关联 。 


6.5.7 ”松散 索引 扫描 (2) 


由 于 历史 原因 ，MySQL 并 不 支持 松散 索引 扫描 ， 也 就 无 法 按照 不 
连续 的 方式 扫描 一 个 索引 。 通 常 ，MySQL 的 索引 扫描 需要 先 定 义 一 个 
起 点 和 终点 ， 即 使 需要 的 数据 只 是 这 段 索引 中 很 少数 的 几 个 ，MYySQL 
仍 需 要 扫描 这 段 索 引 中 每 一 个 条 目 。 


下 面 我 们 通过 一 个 示例 说 明 这 点 。 假 设 我 们 有 如 下 索引 (a, 
b) ， 有 下 面 的 查询 : 


mysql> SELECT ... FROM tbl WHERE b BETWEEN 2 AND 3; 


因为 索引 的 前 导 字 段 是 列 a， 但 是 在 查询 中 只 指定 了 字段 b， 
MySQL 无 法 使 用 这 个 索引 ， 从 而 只 能 通过 全 表 扫 描 找 到 匹配 的 行 ， 如 
图 6-5 所 示 。 


WHERE 于 句 
i 


w| w| wj wj njej| mu] u] =|= 
— fd $ -一下 


图 6-5: MySQL 通 过 全 表 扫 描 找 到 需要 的 记录 


了 解 索引 的 物理 结构 的 话 ， 不 难 必 现 还 可 以 有 一 个 更 快 的 办 法 执 
行 上 面 的 查询 。 索 引 的 物理 结构 (不 是 存储 引擎 的 API) 使 得 可 以 先 
扫描 a 列 第 一 个 值 对 应 的 b 列 的 范围 ， 然 后 再 跳 到 a 列 第 二 个 不 同 值 扫描 
对 应 的 b 列 的 范围 。 图 6-6 展 示 了 如 果 由 MySQL 来 实现 这 个 过 程 会 怎 
样 。 


图 6-6: 使 用 松散 索引 扫描 效率 会 更 高 ， 但 是 MySQL 现 在 还 不 支持 这 么 做 


注意 到 ， 这 时 就 无 须 再 使 用 WHERE 子 句 过 滤 ， 因 为 松散 索引 扫 
首 已 经 跳 过 了 所 有 不 需要 的 记录 。 


上 面 是 一 个 简单 的 例子 ， 除 了 松散 索引 扫描 ， 新 增 一 个 合适 的 索 
引 当 然 也 可 以 优化 上 述 查询 。 但 对 于 某 些 场景 ， 增 加 索引 是 没 用 的 ， 
例如 ， 对 于 第 一 个 索引 列 是 范围 条 件 ， 第 二 个 索引 列 是 等 值 条 件 的 碍 
询 ， 靠 增加 索引 融 无 法 解决 问题 。 


MySQL 5.0 之 后 的 版 本 ， 在 某 些 特殊 的 场景 下 是 可 以 使 用 松散 索 
引 扫 描 的 ， 例 如 ， 在 一 个 分 组 查询 中 需要 找到 分 组 的 最 大 值 和 最 小 
值 : 


mysql> EXPLAIN SELECT actor_id, MAX(film_id) 
-> FROM sakila.film_actor 


-> GROUP BY actor_id\G 


RRO TOR IO IO IO IIT TOR RK IK 1. row 
ORO TOR IO IO TOR IOI TOK TOR KO KR I 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: range 
possible_keys: NULL 
key: PRIMARY 


key_len: 2 
ref: NULL 
rows: 396 


Extra: Using index for group-by 


在 EXPLAIN 中 的 Extra 字 段 显 示 “Using index for group-by”， 表 示 这 
里 将 使 用 松散 索引 扫描 ， 不 过 如 果 MySQL 能 写 上 “loose index probe”, 
相信 会 更 好 理解 。 


在 MySQL 很 好 地 支持 松散 索引 扫描 之 前 ， 一 个 简单 的 绕 过 问题 的 
办 法 就 是 给 前 面 的 列 加 上 可 能 的 单数 值 。 在 前 面 索 引 案例 学 习 的 章节 
中 ， 我 们 已 经 看 到 这 样 做 的 好 处 了 。 


在 MySQL 5.6 之 后 的 版 本 ， 关 于 松散 索引 扫描 的 一 些 限制 将 会 通 
过 “索引 条 件 下 推 (index condition pushdown) ”的 方式 解决 。 


6.5.8 ”最 大 值 和 最 小 值 优 化 


对 于 MINO 和 MAX0O 查 询 ，MySQL 的 优化 做 得 并 不 好 。 这 里 有 一 
个 例子 : 


mysql> SELECT MIN(actor_id) FROM sakila.actor WHERE 


first_name='PENELOPE'; 


为 在 first_name 字 段 上 并 没有 索引 ， 因 此 MySQL 将 会 进行 一 次 
全 表 扫 描 。 如 果 MySQL 能 够 进行 主键 扫描 ， 那 么 理论 上 ， 当 MySQL 
读 到 第 一 个 满足 条 件 的 记录 的 时 候 ， 融 是 我 们 需要 找 的 最 小 值 了 ， 因 
为 主键 是 严格 按照 actor_ id 字段 的 大 小 顺序 排列 的 。 但 是 MySQL 这 时 
只 会 做 全 表 扫 描 ， 我 们 可 以 通过 查看 SHOW STATUS 的 全 表 扫 摘 计 数 
器 来 验证 这 一 点 。 一 个 曲线 的 优化 办 法 是 移 除 MINO， 然 后 使 用 LIMIT 
来 将 查询 重 写 如 下 : 


mysql> SELECT actor_id FROM sakila.actor USE INDEX(PRIMARY ) 


-> WHERE first_name = 'PENELOPE' LIMIT 1; 


这 个 策略 可 以 让 MySQL 扫 描 尽 可 能 少 的 记录 数 。 如 果 你 是 一 个 完 
美 主义 者 ， 可 能 会 说 这 个 SQL 已 经 无 法 表达 她 的 本 意 了 。 一 般 我 们 通 
过 SQL 告诉 服务 器 我 们 需要 什么 效 据 ， 由 服务 器 来 决定 如 何 最 优 地 获 
取 数 据 ， 不 过 在 这 个 案例 中 ， 我 们 其 实 是 告诉 MySQL 如 何 去 获 取 我 们 
需要 的 数据 ， 通 过 SQL 并 不 能 一 眼 就 看 出 我 们 其 实 是 想 要 一 个 最 小 
值 。 确 实 如 此 ， 有 时 候 为 了 获得 更 高 的 性 能 ， 我 们 不 得 不 放弃 一 些 原 
则 。 


65.9 ”在 同一 个 表 上 和 查询 和 更 新 


MySQL 不 允许 对 同一 张 表 同时 进行 查询 和 更 新 。 这 其 实 并 不 是 优 
化 器 的 限制 ， 如 果 清 楚 MySQL 是 如 何 执 行 查询 的 ， 就 可 以 避免 这 种 情 
况 。 下 面 是 一 个 无 法 运行 的 SQL ， 虽 然 这 是 一 个 符合 标准 的 SQL 语 
句 。 这 个 SQL 语句 党 试 将 两 个 表 中 相似 行 的 数量 记录 到 字段 cnt 中 : 


mysql> UPDATE tbl AS outer_tbl 
-> SET cnt = ( 
-> SELECT count(*) FROM tbl AS inner_tbl 
-> WHERE inner_tbl.type = outer_tbl.type 
> ); 
ERROR 1093 (HY000): You can't specify target table 
‘outer_tbl' for update in FROM 


clause 


可 以 通过 使 用 生成 表 的 形式 来 绕 过 上 面 的 限制 ， 因 为 MySQL 只 会 
把 这 个 表 当 作 一 个 临时 表 来 处 理 。 实 际 上 ， 这 执行 了 两 个 查询 : 一 
子 查 询 中 的 SELECT 语句 ， 另 一 个 是 多 表 天 联 UPDATIE ， 只 是 天 联 的 
表 是 一 个 临时 表 。 子 查询 会 在 UPDATE 语 句 打开 表 之 前 就 完成 ， 所 以 
下 面 的 查询 将 会 正常 执行 


mysql> UPDATE tbl 
-> INNER JOIN(www.it-eboo 


-> SELECT type, count(*) AS cnt 


-> FROM tbl 
-> GROUP BY type 
-> ) AS der USING(type) 


-> SET tbhl.cnt = der.cnt; 


6.6 ”查询 优化 器 的 提示 (hint) 


如 果 对 优化 器 选择 的 执行 计划 不 满意 ， 可 以 使 用 优化 器 提供 的 几 
个 提示 (hint) 来 控制 最 终 的 执行 计划 。 下 面 将 列举 一 些 常见 的 提 
示 ， 并 简单 地 给 出 什么 时 候 使 用 该 提示 。 通 过 在 查询 中 加 入 相应 的 提 
示 ， 就 可 以 控制 该 查询 的 执行 计划 。 关 于 每 个 提示 的 具体 用 法 ， 建 议 
直接 阅读 MySQL 官 方 手册 。 有 些 提示 和 版 本 有 直接 关系 。 可 以 使 用 的 
一 些 提 示 如 下 : 


HIGH_PRIORITY 和 LOW_PRIORITY 


这 个 提示 告诉 MySQL ， 当 多 个 语句 同时 访问 某 一 个 表 的 时 
候 ， 哪 些 语句 的 优先 级 相对 高 些 、 哪 些 语句 的 优先 级 相对 低 些 。 


HIGH_PRIORITY 用 于 SELECT 语句 的 时 候 ，MySQL 会 将 此 
SELECT 语 句 重新 调度 到 所 有 正在 等 待 表 锁 以 便 修改 数据 的 语句 
之 前 。 实 际 上 MySQL 是 将 其 放 在 表 的 队列 的 最 前 面 ， 而 不 是 按照 
常规 顺序 等 待 。HIGH_PRIORITY 还 可 以 用 于 INSERT 语 句 ， 其 效 
果 只 是 简单 地 抵消 了 全 局 LOW_PRIORITY 设 置 对 该 语句 的 影响 。 


LOW_PRIORITY 则 正好 相反 : 它 会 让 该 语句 一 直 处 于 等 待 状 
态 ， 只 要 队列 中 还 有 需要 访问 同一 个 表 的 语句 即使 是 那些 比 


该 语句 还 晚 提交 到 服务 器 的 语句 。 这 就 像 一 个 过 于 礼貌 的 人 站 在 
餐厅 门口 ， 只 要 还 有 其 他 顾客 在 等 待 就 一 直 不 进去 ， 很 明显 这 容 
AIP CARA. LOW PRIORITY#227£SELECT, INSERT, 
UPDATE 和 DELETE 语 句 中 都 可 以 使 用 。 


这 两 个 提示 只 对 使 用 表 锁 的 存储 引擎 有 效 ， 千 万 不 要 在 
InnoDB 或 者 其 他 有 细 粒 度 锁 机 制 和 并 发 控制 的 引擎 中 使 用 。 即 使 
是 在 MYISAM 中 使 用 也 要 注意 ， 因 为 这 两 个 提示 会 导致 并 发 插入 
被 禁用 ， 可 能 会 严重 降低 性 能 。 


HIGH_PRIORITY 和 LOW_PRIORITY 经 常 让 人 感到 困惑 。 这 
两 个 提示 并 不 会 获取 更 多 资产 让 查询 “积极 ”工作 ， 也 不 会 少 获取 
资源 让 查询 “消极 * 工 作 。 它 们 只 是 简单 地 控制 了 MySQL 访 问 某 个 
数据 表 的 队列 顺序 。 


DELAYED 


这 个 提示 对 INSERT 和 REPLACE 有 效 。MySQL 会 将 使 用 该 提 
示 的 语句 立即 返回 给 客户 端 ， 并 将 插入 的 行 数据 放 入 到 缓冲 区 ， 
然后 在 表 空 闪 时 批量 将 数据 写 入 。 日 志 系 统 使 用 这 样 的 提示 非常 
有 效 ， 或 者 是 其 他 需要 写 入 大 量 数据 但 是 客户 端 却 不 需要 等 待 单 
条 语句 完成 /O 的 应 用 。 这 个 用 法 有 一 些 限 制 : 并 不 是 所 有 的 存储 
引擎 都 支持 这 样 的 做 法 ; 并 且 该 提示 会 导致 函数 
LAST_INSERT_IDO 无 法 正常 工作 。 


STRAIGHT_JOIN 


这 个 提示 可 以 放置 在 SELECT 语句 的 SELECT 关键 字 之 后 ， 也 
可 以 放置 在 任何 两 个 关联 表 的 名 字 之 间 。 第 一 个 用 法 是 让 查询 中 
所 有 的 表 按照 在 语句 中 出 现 的 顺序 进行 关联 。 第 二 个 用 法 则 是 固 
定 其 前 后 两 个 表 的 关联 顺序 。 


当 MySQL 没 能 选择 正确 的 关联 顺序 的 时 候 ， 或 者 由 于 可 能 的 
顺序 太 多 导致 MySQL 无 法 评估 所 有 的 关联 顺序 的 时 候 ， 
STRAIGHT JOIN 都 会 很 有 用 。 在 后 面 这 种 情况 ，MySQL 可 能 会 
花费 大 量 时 间 在 “statistics” 状 态 ， 加 上 这 个 提示 则 会 大 大 减少 优化 
器 的 搜索 空间 。 


可 以 先 使 用 EXPLAIN 语 句 来 查看 优化 器 选择 的 关联 顺序 ， 然 
后 使 用 该 提示 来 重 写 查询 ， 再 看 看 它 的 关联 顺序 。 当 你 确定 无 论 
怎样 的 where 条 件 ， 某 个 固定 的 关联 顺序 始终 是 最 佳 的 时 候 ， 使 用 
这 个 提示 可 以 大 大 提高 优化 器 的 效率 。 但 是 在 升级 MySQL 版 本 的 
时 候 ， 需 要 重新 审视 下 这 类 查询 ， 某 些 新 的 优化 特性 可 能 会 因为 
该 提示 而 失效 。 


SQL_SMALL RESULT 和 SQL_BIG RESULT 


这 两 个 提示 只 对 SELECT 语 句 有 效 。 它 们 告诉 优化 器 对 
GROUP BY 或 者 DISTINCT 查询 如 何 使 用 临时 表 及 排序 。 
SQL_SMALL_RESULT 告 诉 优 化 器 结果 集会 很 小 ， 可 以 将 结果 集 
放 在 内 存 中 的 索引 临时 表 ， 以 避免 排序 操作 。 如 果 是 
SQL_BIG_RESULT， 则 告诉 优化 器 结果 集 可 能 会 非常 大 ， 建 议 使 
用 磁盘 临时 表 做 排序 操作 。 


SQL_BUFFER_RESULT 


这 个 提示 告诉 优化 器 将 查询 结果 放 入 到 一 个 临时 表 ， 然 后 尽 
可 能 快 地 释放 表 锁 。 这 和 前 面 提 到 的 由 客户 端 缓存 结果 不 同 。 当 
你 没 法 使 用 客户 端 缓存 的 时 候 ， 使 用 服务 器 端的 缓存 通常 很 有 
效 。 融 来 的 好 处 是 无 须 在 客户 端 上 消耗 太 多 的 内 存 ， 还 可 以 尽 可 
能 快 地 释放 对 应 的 表 锁 。 代 价 是 ， 服 务 器 端 将 需要 更 多 的 内 存 。 


SQL_CACHE 和 SQL _NO_CACHE 


这 个 提示 告诉 MySQL 这 个 结果 集 是 否 应 该 缓存 在 查询 缓存 
中 ， 下 一 章 我 们 将 详细 介绍 如 何 使 用 。 


SQL_CALC_FOUND_ROWS 


严格 来 说 ， 这 并 不 是 一 个 优化 器 提示 。 它 不 会 告诉 优化 器 任 
何 关于 执行 计划 的 东西 。 它 会 让 MySQL 返 回 的 结果 集 包含 更 多 的 
言 息 。 查 询 中 加 上 该 提示 MySQL 会 计算 除去 LIMIT 子 句 后 这 个 查 
询 要 返回 的 结果 集 的 总 数 ， 而 实际 上 只 返回 LIMIT 要 求 的 结果 
集 。 可 以 通过 函数 FOUND_ROW0 获 得 这 个 值 。 (参阅 后 面 的 
“SQL_CALC_FOUND_ROWS 优 化 ”部 分 ， 了 解 下 为 什么 不 应 该 使 
用 该 提示 。) 


FOR UPDATE 和 LOCK IN SHARE MODE 


这 也 不 是 真正 的 优化 器 提示 。 这 两 个 提示 主要 控制 SELECT 
语句 的 锁 机 制 ， 但 只 对 实现 了 行 级 锁 的 存储 引擎 有 效 。 使 用 该 提 
示 会 对 符合 查询 条 件 的 数据 行 加 锁 。 对 于 INSERT..SELECT 语 名 
是 不 需要 这 两 个 提示 的 ， 因 为 对 于 MySQL 5.0 和 更 新 版 本 会 默认 


给 这 些 记 录 加 上 读 锁 。 (可 以 禁用 该 默认 行为 ， 但 不 是 个 好 主 
意 ， 在 后 面 关 于 复制 和 备份 的 章节 中 将 解释 这 一 点 。) 


唯一 内 置 的 支持 这 两 个 提示 的 引擎 就 是 mnoDB。 另 外 需要 记 
住 的 是 ， 这 两 个 提示 会 让 某 些 优化 无 法 正常 使 用 ， 例 如 索引 覆盖 
扫描 。InnoDB 不 能 在 不 访问 主键 的 情况 下 排他 地 锁定 行 ， 因 为 行 
的 版 本 信息 保存 在 主键 中 。 


糟糕 的 是 ， 这 两 个 提示 经 常 被 滥用 ， 很 容易 造成 服务 器 的 锁 
争 用 问题 ， 后 面 章节 我 们 将 讨论 这 点 。 应 该 尽 可 能 地 避免 使 用 这 
两 个 提示 ， 通 常 都 有 其 他 更 好 的 方式 可 以 实现 同样 的 目的 。 


USE INDEX, IGNORE INDEX 和 FORCE INDEX 


这 几 个 提示 会 告诉 优化 器 使 用 或 者 不 使 用 哪些 索引 来 查询 记 
R (例如 ， 在 决定 关联 顺序 的 时 候 使 用 哪个 索引 ) 。 在 MySQL 
5.0 和 更 早 的 版 本 ， 这 些 提示 并 不 会 影响 到 优化 器 选择 哪个 索引 进 
行 排序 和 分 组 ， 在 MyQL 5.1 和 之 后 的 版 本 可 以 通过 新 增 选 项 FOR 
ORDER BY 和 FOR GROUP BY 来 指定 是 否 对 排序 和 分 组 有 效 。 


FORCE INDEX 和 USE INDEX 基 本 相同 ， 除 了 一 点 : FORCE 
INDEX 会 告诉 优化 器 全 表 扫 描 的 成 本 会 远 远 高 于 索引 扫描 ， 哪 怕 
实际 上 该 索引 用 处 不 大 。 当 发 现 优化 器 选择 了 错误 的 索引 ， 或 者 
因为 某 些 原因 (比如 在 不 使 用 ORDER BY 的 时 候 希 望 结 果 有 序 ) 
要 使 用 另 一 个 索引 时 ， 可 以 使 用 该 提示 。 在 前 面 关 于 如 何 使 用 
LIMIT 高 效 地 获取 最 小 值 的 案例 中 ， 已 经 演示 过 这 种 用 法 。 


在 MySQL 5.0 和 更 新 版 本 中 ， 新 增 了 一 些 参 数 用 来 控制 优化 器 的 


optimizer_search_depth 


这 个 参数 控制 优化 器 在 穷 举 执行 计划 时 的 限度 。 如 果 查 询 长 
时 间 处 于 “Statistics” 状 态 ， 那 么 可 以 考虑 调 低 此 参数 。 


optimizer_prune_level 


该 参数 默认 是 打开 的 ， 这 让 优化 器 会 根据 需要 扫描 的 行 数 来 
决定 是 否 跳 过 某 些 执行 计划 。 


optimizer_switch 


这 个 变量 包含 了 一 些 开 局 /关闭 优化 器 特性 的 标志 位 。 例 如 在 
MySQL 5.1 中 可 以 通过 这 个 参数 来 控制 禁用 索引 合并 的 特性 。 


前 两 个 参数 是 用 来 控制 优化 器 可 以 走 的 一 些 “ 捷 径 ”。 这 些 捷径 可 
以 让 优化 器 在 处 理 非 常 复 杂 的 SQL 语句 时 ， 仍 然 可 以 很 高 效 ， 但 这 也 
可 能 让 优化 器 错过 一 些 真 正 最 优 的 执行 计划 。 所 以 应 该 根据 实际 需要 
来 修改 这 些 参数 。 


MySQL 升 级 后 的 验证 


在 优化 器 面前 要 一 些 “ 小 聪明 ”是 不 好 的 。 这 样 做 收效 甚 小， 但 
是 却 给 维护 审 来 了 很 多 额外 的 工作 量 。 在 MySQL 有 版 本 升级 的 时 候 ， 
这 个 问题 就 很 突出 了 ， 你 设置 的 “优化 器 提示 ”很 可 能 会 让 新 版 的 优 
化 策略 失效 。 


MySQL 5.0 版 本 引入 了 大 量 优 化 策略 ， 在 还 没有 正式 发 布 的 5.6 
版 本 中 ， 优 化 器 的 改进 也 是 近 些 年 来 最 大 的 一 次 改进 。 如 果 要 更 新 
到 这 些 版 本 ， 当 然 希 望 能 够 从 这 些 改进 中 受益 。 


新 版 MySQL 基 本 上 在 各 个 方面 都 有 非常 大 的 改进 ，5.5 和 5.6 这 
两 个 版 本 尤为 突出 。 升 级 操作 一 般 来 说 都 很 顺利 ， 但 仍然 建议 仔细 
检查 各 个 细节 ， 以 防止 一 些 边界 情况 影响 你 的 应 用 程序 。 不 过 还 
好 ， 要 避免 这 些 ， 你 不 需要 付出 太 多 的 精力 。 使 用 Percona Toolkit 
的 ptrupgrade 工 具 ， 就 可 以 检查 在 新 版 本 中 运行 的 SQL 是 否 与 老 版 本 
一 样 ， 返 回 相同 的 结果 。 


6.7 ”优化 特定 类 型 的 查询 


这 一 节 ， 我 们 将 介绍 如 何 优化 特定 类 型 的 查询 。 在 本 书 的 其 他 部 
分 都 会 分 散 介绍 这 些 优化 技巧 ， 不 过 这 里 将 会 汇总 一 下 ， 以 便 参 考 和 
查阅 。 


本 节 介 绍 的 多 数 优化 技巧 都 是 和 特定 的 版 本 有 关 的 ， 所 以 对 于 未 
来 MySQL 的 版 本 未 必 适 用 。 宫 无 疑问 ， 某 一 天 优化 器 自己 也 会 实现 这 
里 列 出 的 部 分 或 者 全 部 优化 技巧 。 


6.7.1 ”优化 COUNTO 查 询 


COUNTO 聚 合 水 数 ， 以 及 如 何 优化 使 用 了 该 水 数 的 查询 ， 很 可 能 
是 MySQL 中 最 容易 被 误解 的 前 10 个 话题 之 一 。 在 网 上 随便 搜索 一 下 就 


能 看 到 很 多 错误 的 理解 ， 可 能 比 我 们 想象 的 多 得 多 。 


在 做 优化 之 前 ， 先 来 看 看 COUNT() 遂 数 真正 的 作用 是 什么 。 


COUNT0O 的 作用 


COUNTO 是 一 个 特殊 的 水 数 ， 有 两 种 非常 不 同 的 作用 : 它 可 以 统 
计 某 个 列 值 的 数量 ， 也 可 以 统计 行 数 。 在 统计 列 值 时 要 求 列 值 是 非 空 
的 (不 统计 NULL) 。 如 果 在 COUNT() 的 括号 中 指定 了 列 或 者 列 的 表 
达 式 ， 则 统计 的 就 是 这 个 表达 式 有 值 的 结果 数 ( 约 。 因 为 很 多 人 对 
NULL 理 解 有 问题 ， 所 以 这 里 很 容易 产生 误解 。 如 果 想 了 解 更 多 关于 
SQL 语句 中 NULL 的 含义 ， 建 议 阅读 一 些 关 于 SQL 语句 基础 的 书籍 。 
(关于 这 个 话题 ， 互 联网 上 的 一 些 信息 是 不 够 精确 的 。 ) 


COUNT0 的 另 一 个 作用 是 统计 结果 集 的 行 数 。 当 MySQL 确 认 括 号 
内 的 表达 式 值 不 可 能 为 空 时 ， 实 际 上 就 是 在 统计 行 数 。 最 简单 的 就 是 
当 我 们 使 用 COUNT (*) 的 时 候 ， 这 种 情况 下 通配符 * 并 不 会 像 我 们 猜 
想 的 那样 扩展 成 所 有 的 列 ， 实 际 上 ， 它 会 忽略 所 有 的 列 而 直接 统计 所 
有 的 行 数 。 


我 们 发 现 一 个 最 剃 见 的 错误 就 是 ， 在 括号 内 指 吓 了 一 个 列 却 希 望 
统计 结果 集 的 行 数 。 如 果 希 望 知道 的 是 结果 集 的 行 数 ， 最 好 使 用 
COUNT (*) ， 这 样 写 意义 清晰 ， 性 能 也 会 很 好 。 


关于 MyISAM 的 神话 


一 个 容易 产生 的 误解 就 是 : MyISAM 的 COUNTO 函 数 总 是 非常 
快 ， 不 过 这 是 有 前 提 条 件 的 ， 即 只 有 没有 任何 WHERE 条 件 的 COUNT 
(*) 才 非 常 快 ， 因 为 此 时 无 须 实际 地 去 计算 表 的 行 数 。MySQL 可 以 
利用 存储 引擎 的 特性 直接 获得 这 个 值 。 如 果 MySQL 知 道 某 列 col 不 可 能 
为 NULL 值 ， 那 么 MySQL 内 部 会 将 COUNT (col) 表达 式 优化 为 
COUNT (*) 。 


当 统 计 带 WHERE 子 句 的 结果 集 行 数 ， 可 以 是 统计 某 个 列 值 的 数 
量 时 ，MyISAM 的 COUNTO 和 其 他 存储 引擎 没有 任何 不 同 ， 融 不 再 有 
神话 般 的 速度 了 。 所 以 在 MyISAM 引 警 表 上 执行 COUNTO 有 时 候 比 别 
的 引擎 快 ， 有 时 候 比 别 的 引擎 慢 ， 这 受 很 多 因素 影响 ， 要 视 具 体 情 况 
而 定 。 


简单 的 优化 


有 时 候 可 以 使 用 MyISAM 在 COUNT (*) 全 表 非 常 快 的 这 个 特 
性 ， 来 加 速 一 些 特定 条 件 的 COUNT0O 的 查询 。 在 下 面 的 例子 中 ， 我 们 
使 用 标准 数据 库 world 来 看 看 如 何 快速 查找 到 所 有 ID 大 于 5 的 城市 。 可 
以 像 下 面 这 样 来 写 这 个 查询 : 


mysql> SELECT COUNT (*) FROM world.City WHERE ID>5; 


通过 SHOW STATUS 的 结果 可 以 看 到 该 查询 需要 扫 拉 4097 行 数 
据 。 如 果 将 条 件 反 转 一 下 ， 先 查找 ID 小 于 等 于 5 的 城市 数 ， 然 后 用 总 
城市 数 一 减 就 能 得 到 同样 的 结果 ， 却 可 以 将 扫描 的 行 数 减少 到 5 行 以 
内 : 


mysql> SELECT (SELECT COUNT(*) FROM world.City) - COUNT(*) 


-> FROM world.City WHERE ID <= 5; 


这 样 做 可 以 大 大 减少 需要 扫描 的 行 数 ， 是 因为 在 查询 优化 阶段 会 
将 其 中 的 子 查询 直接 当 作 一 个 常数 来 处 理 ， 我 们 可 以 通过 EXPLAIN 来 
验证 这 点 : 


+----+-------------+------- +...+------ +------------------------------ 十 
| id | select_type table |...| rows | Extra | 
----+-------------+------- ..+------+------------------------------+ 
| 1 | PRIMARY i City = 6 | Using where; Using index | 
| 2 | SUBQUERY | NULL |...| NULL | Select tables optimized away | 
+----+------------- +------- +...+------ +------------------------------ 十 


在 邮件 组 和 IRC 聊 天 频道 中 ， 通 常会 看 到 这 样 的 问题 : 如 何在 同 
一 个 查询 中 统计 同一 个 列 的 不 同 值 的 数量 ， 以 减少 查询 的 语句 量 。 例 
站 设 可 能 需要 通过 一 个 查询 返回 各 种 不 同 颜色 的 商品 数量 ， 此 时 
EE 使 用 OR 语句 (比如 SELECT COUNT ( color="blue’ OR 
wise 法 区 分 不 同 颜色 的 商品 
数量 ; 也 不 能 在 WHERE 条 件 中 指定 颜色 〈 比 如 SELECT COUNT (*) 
FROM items WHERE color="blue’ AND color='RED';) ， 因 为 颜色 的 条 
件 是 互 斥 的 。 下 面 的 查询 可 以 在 一 定 程度 上 解决 这 个 问题 (2)。 


mysql> SELECT SUM(IF(color = 'blue', 1, 0)) AS 
blue,SUM(IF(color = 'red', 1, 0)) 


-> AS red FROM items; 


也 可 以 使 用 COUNTO 而 不 是 SUM() 实 现 同 样 的 目的 ， 只 需要 将 满 
条 件 设 置 为 真 ， 不 满足 条 件 设置 为 NULL 即 可 : 


mysql> SELECT COUNT(color = '‘'blue' OR NULL) AS blue, 
COUNT(color = 'red' OR NULL) 


-> AS red FROM items; 


使 用 近似 值 


有 时 候 某 些 业 务 场景 并 不 要 求 完全 精确 的 COUNT 值 ， 此 时 可 以 用 
近似 值 来 代替 。EXPLAIN 出 来 的 优化 器 估算 的 行 数 融 是 一 个 不 铬 的 近 
似 值 ， 执 行 EXPLAIN 并 不 需要 真正 地 去 执行 查询 ， 所 以 成 本 很 低 。 


很 多 时 候 ， 计 算 精 确 值 的 成 本 非常 高 ， 而 计算 近似 值 则 非常 简 

。 曾 经 有 一 个 客户 希望 我 们 统计 他 的 网 站 的 当前 活跃 用 户 数 是 多 
少 ， 这 个 活跃 用 户 数 保存 在 缓存 中 ， 过 期 时 间 为 30 分 钟 ， 所 以 每 隔 30 
分 钟 需要 重新 计算 并 放 入 缓存 。 因 此 这 个 活跃 用 户 数 本 身 就 不 是 精确 
值 ， 所 以 使 用 近似 值 代替 是 可 以 接受 的 。 另 外 ， 如 果 要 精确 统计 在 绪 
人 人数， 通常 WHERE 条 件 会 很 复杂 ， 一 方面 需要 吻 除 当前 非 活跃 用 
户 ， 另 一 方面 还 要 剔除 系统 中 某 些 特定 ID 的 “默认 "用户 ， 去 掉 这 些 约 
束 条 件 对 总 数 的 影响 很 小 ， 但 却 可 能 很 好 地 提升 该 查询 的 性 能 。 更 进 
一 步 地 优化 则 可 以 尝试 删除 DISTINCT 这 样 的 约束 来 避免 文件 排序 。 
这 样 重 写 过 的 查询 要 比 原来 的 精确 统计 的 查询 快 很 多 ， 而 返回 的 结果 
则 几乎 相同 。 


更 复杂 的 优化 


通常 来 说 ，COUNT0O 都 需要 扫描 大 量 的 行 (意味 着 要 访问 大 量 数 
据 ) 才能 获得 精确 的 结果 ， 因 此 是 很 难 优化 的 。 除 了 前 面 的 方法 ， 在 
MySQL 层 面 还 能 做 的 就 只 有 索引 有 覆盖 扫描 了 。 如 果 这 还 不 够 ， 就 需要 
考虑 修改 应 用 的 架构 ， 可 以 增加 汇总 表 (第 4 章 已 经 介绍 过 ) ， 或 者 增 
加 类 似 Memcached 这 样 的 外 部 缓存 系统 。 可 能 很 快 你 就 会 发 现 陷入 到 
一 个 熟悉 的 困境 , “快速 ， 精 确 和 实现 简单 ”， 三 者 永远 只 能 满足 其 
二 ， 必 须 舍 掉 其 中 一 个 。 


6.7.2 ”优化 关联 查询 


这 个 话题 基本 上 整 本 书 都 在 讨论 ， 这 里 需要 特别 提 到 的 是 : 


。 确保 ON 或 者 USING 子 句 中 的 列 上 有 索引 。 在 创建 索引 的 时 候 就 要 
考虑 到 关联 的 顺序 。 当 表 A 和 表 B 用 列 c 关 联 的 时 候 ， 如 果 优 化 器 
的 关联 顺序 是 B、A， 那 么 就 不 需要 在 B 表 的 对 应 列 上 建 上 索引 。 
没有 用 到 的 索引 只 会 带 来 额外 的 负担 。 一 般 来 说 ， 除 非 有 其 他 理 
由 ， 否 则 只 需要 在 关联 顺序 中 的 第 二 个 表 的 相应 列 上 创建 索引 。 
确保 任何 的 GROUP BY 和 ORDER BY 中 的 表达 式 只 涉及 到 一 个 表 
中 的 列 ， 这 样 MySQL 才 有 可 能 使 用 索引 来 优化 这 个 过 程 。 

当 升 级 MySQL 的 时 候 需 要 注意 : 关联 语法 、 运 算 符 优先 级 等 其 他 
可 能 会 发 生变 化 的 地 方 。 因 为 以 前 是 普通 关联 的 地 方 可 能 会 变 
第 卡 儿 积 ， 不 同类 型 的 关联 可 能 会 生成 不 同 的 结果 等 。 


6.7.3 ”优化 子 查 询 


关于 子 查 询 优化 我 们 给 出 的 最 重要 的 优化 建议 就 是 尽 可 能 使 用 关 
联 查询 代替 ， 至 少 当 前 的 MySQL 版 本 需要 这 样 。 本 章 的 前 面 章节 已 经 
详细 介绍 了 这 点 。“ 尽 可 能 使 用 关联 ”并 不 是 绝对 的 ， 如 果 使 用 的 是 
MySQL 5.6 或 更 新 的 版 本 或 者 MariaDB ， 那 么 就 可 以 直接 忽略 关于 子 
查询 的 这 些 建议 了 。 


6.7.4 ”优化 GROUP BY 和 DISTINCT 


在 很 多 场景 下 ，MySQL 都 使 用 同样 的 办 法 优化 这 两 种 查询 ， 事 实 
上 ，MySQL 优 化 器 会 在 内 部 处 理 的 时 候 相 互 转化 这 两 类 查询 。 它 们 都 
可 以 使 用 索引 来 优化 ， 这 也 是 最 有 效 的 优化 办 法 。 


在 MySQL 中 ， 当 无 法 使 用 索引 的 时 候 ，GROUP BY 使 用 两 种 策略 
来 完成 : 使 用 临时 表 或 者 文件 排序 来 做 分 组 。 对 于 任何 查询 语句 ， 这 
两 种 策略 的 性 能 都 有 可 以 提升 的 地 方 。 可 以 通过 使 用 提示 
SQL_BIG_RESULT 和 SQL_SMALL_RESULT 来 让 优化 器 按照 你 希望 的 
方式 运行 。 在 本 章 的 前 面 章 节 我 们 已 经 讨论 了 这 点 。 


如 果 需 要 对 关联 查询 做 分 组 (GROUP BY) ， 并 且 是 按照 查找 表 
中 的 某 个 列 进行 分 组 ， 那 么 通常 采用 碍 找 表 的 标识 列 分 组 的 效率 会 比 
其 他 列 更 高 。 例 如 下 面 的 查询 效率 不 会 很 好 : 


mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 
-> FROM sakila.film_actor 
-> INNER JOIN sakila.actor USING(actor_id) 


-> GROUP BY actor.first_name, actor.last_name; 


如 果 查 询 按照 下 面 的 写法 效率 则 会 更 高 : 


mysql> SELECT actor.first_name, actor.last_name, COUNT(*) 
-> FROM sakila.film_actor 
-> INNER JOIN sakila.actor USING(actor_id) 


-> GROUP BY film_actor.actor_id; 


使 用 actor.actor_id 列 分 组 的 效率 甚至 会 比 使 用 film_actor.actor_id 更 
好 。 这 一 点 通过 简单 的 测试 即 可 验证 。 


这 个 查询 利用 了 演员 的 姓名 和 ID 直接 相关 的 特点 ， 因 此 改写 后 的 
结果 不 受 影响 ， 但 显然 不 是 所 有 的 关联 语句 的 分 组 查询 都 可 以 改写 成 
在 SELECT 中 直接 使 用 非 分 组 列 的 形式 的 。 甚 至 可 能 会 在 服务 器 上 设 
置 SQL_MODE 来 禁止 这 样 的 写法 。 如 果 是 这 样 ， 也 可 以 通过 MIN0O 或 
者 MAX() 义 数 来 绕 过 这 种 限制 ， 但 一 定 要 清楚 ，SELECT 后 面 出 现 的 
非 分 组 列 一 定 是 直接 依赖 分 组 列 ， 并 且 在 每 个 组 内 的 值 是 唯一 的 ， 或 
者 是 业务 上 根本 不 在 乎 这 个 值 具体 是 什么 : 


mysql> SELECT MIN(actor.first_name), MAX(actor.last_name), 


较真 的 人 可 能 会 说 这 样 写 的 分 组 查询 是 有 问题 的 ， 确 实 如 此 。 从 
MIN() 或 者 MAX() 遂 数 的 用 法 就 可 以 看 出 这 个 查询 是 有 问题 的 。 但 若 
更 在 乎 的 是 MySQL 运 行 查询 的 效率 时 这 样 做 也 无 可 厚 非 。 如 果实 在 较 
真 的 话 也 可 以 改写 成 下 面 的 形式 : 


mysql> SELECT actor.first_name, actor.last_name, c.cnt 
-> FROM sakila.film_actor 


-> INNER JOIN ( 


-> SELECT actor_id, COUNT(*) AS cnt 
-> FROM sakila.film_actor 
-> GROUP BY actor_id 


-> ) AS c USING(actor_id) ; 


这 样 写 更 满足 天 系 理论 ， 但 成 本 有 点 高 ， 因 为 子 查 询 需 要 创建 和 
填充 临时 表 ， 而 子 查询 中 创建 的 临时 表 是 没有 任何 索引 的 49)。 


在 分 组 查询 的 SELECT 中 直接 使 用 非 分 组 列 通常 都 不 是 什么 好 主 
意 ， 因 为 这 样 的 结果 通常 是 不 定 的 ， 当 索引 改变 ， 或 者 优化 器 选择 不 
同 的 优化 策略 时 都 可 能 导致 结果 不 一 样 。 我 们 碰 到 的 大 多 数 这 种 查询 
最 后 都 导致 了 故障 (因为 MySQL 不 会 对 这 类 查询 返回 错误 ) ， 而 且 这 
种 写法 大 部 分 是 由 于 偷懒 而 不 是 为 优化 而 故意 这 么 设计 的 。 建 议 始 终 
使 用 含义 明确 的 语法 。 事 实 上 ， 我 们 建议 将 MySQL 的 SQL_MODE 设 
置 为 包含 ONLY_FULL_GROUP_BY， 这 时 MySQL 会 对 这 类 查询 直接 
返回 一 个 错误 ， 提 醒 你 需要 重 写 这 个 查询 。 


如 果 没 有 通过 ORDER BY 子 句 显 式 地 指定 排序 列 ， 当 查询 使 用 
GROUP BY 子 句 的 时 候 ， 结 果 集 会 自动 按照 分 组 的 字段 进行 排序 。 如 
果 不 关心 结果 集 的 顺序 ， 而 这 种 默认 排序 又 导致 了 需要 文件 排序 ， 则 
可 以 使 用 ORDER BY NULL， 让 MySQL 不 再 进行 文件 排序 。 也 可 以 在 
GROUP BY 子 句 中 直接 使 用 DESC 或 者 ASC 关 键 字 ， 使 分 组 的 结果 集 按 
需要 的 方向 排序 。 


优化 GROUP BY WITH ROLLUP 


分 组 查询 的 一 个 变种 就 是 要 求 MySQL 对 返回 的 分 组 结果 再 做 一 次 
超级 聚合 。 可 以 使 用 WITH ROLLUP 子 句 来 实现 这 种 逻辑 ， 但 可 能 会 
不 够 优化 。 可 以 通过 EXPLAIN 来 观察 其 执行 计划 ， 特 别 要 注意 分 组 是 
否 是 通过 文件 排序 或 者 临时 表 实 现 的 。 然 后 再 去 掉 WITH ROLLUP 子 
句 看 执行 计划 是 否 相 同 。 也 可 以 通过 本 节 前 面 介 绍 的 优化 器 提示 来 固 
定 执行 计划 。 


很 多 时 候 ， 如 果 可 以 ， 在 应 用 程序 中 做 超级 聚合 是 更 好 的 ， 虽 然 
这 需要 返回 给 客户 端 更 多 的 结果 。 也 可 以 在 FROM 子 句 中 主 套 使 用 子 
查询 ， 或 者 是 通过 一 个 临时 表 存 放 中 间 数 据 ， 然 后 和 临时 表 执 行 
UNION 来 得 到 最 终结 果 。 


最 好 的 办 法 是 尽 可 能 的 将 WITH ROLLUP 功 能 转移 到 应 用 程序 中 
处 理 。 


6.75 ”优化 LIMIT 分 页 


在 系统 中 需要 进行 分 页 操作 的 时 候 ， 我 们 通常 会 使 用 LIMIT 加 上 
偏 移 量 的 办 法 实现 ， 同 时 加 上 合适 的 ORDER BY 子 句 。 如 果 有 对 应 的 
索引 ， 通 常 效率 会 不 错 ， 否 则 ，MySQL 需 要 做 大 量 的 文件 排序 操作 。 


一 个 非常 常见 又 令 人 头疼 的 问题 就 是 ， 在 偏 移 量 非常 大 的 时 候 
(2， 例 如 可 能 是 LIMIT 1000,20 这 样 的 查询 ， 这 时 MySQL 需 要 查询 10 
020 条 记录 然后 只 返回 最 后 20 条 ， 前 面 10000 条 记录 都 将 被 抛弃 ， 这 样 
的 代价 非常 高 。 如 果 所 有 的 页 面 被 访问 的 频率 都 相同 ， 那 么 这 样 的 查 


询 平 均 需 要 访问 半 个 表 的 数据 。 要 优化 这 种 查询 ， 要 么 是 在 页 面 中 限 
制 分 页 的 数量 ， 要 么 是 优化 大 偶 移 量 的 性 能 。 


优化 此 类 分 页 查询 的 一 个 最 简单 的 办 法 就是 尽 可 能 地 使 用 索引 覆 
盖 扫 描 ， 而 不 是 查询 所 有 的 列 。 然 后 根据 需要 做 一 次 关联 操作 再 返回 
所 需 的 列 。 对 于 偏 移 量 很 大 的 时 候 ， 这 样 做 的 效率 会 提升 非常 大 。 考 
虑 下 面 的 查询 : 


mysql> SELECT film_id, description FROM sakila.film ORDER 


BY title LIMIT 50, 5; 


如 果 这 个 表 非 常 大 ， 那 么 这 个 查询 最 好 改写 成 下 面 的 样子 : 


mysql> SELECT film.film id, film.description 
-> FROM sakila.film 
-> INNER JOIN ( 
-> SELECT film id FROM sakila. film 
-> ORDER BY title LIMIT 50, 5 


-> ) AS lim USING(film_id); 


这 里 的 “延迟 关联 ”将 大 大 提升 查询 效率 ， 它 让 MySQL 扫 描 尽 可 能 
少 的 页 面 ， 获 取 需 要 访问 的 记录 后 再 根据 关联 列 回 原 表 查 询 需 要 的 所 
有 列 。 这 个 技术 也 可 以 用 于 优化 关联 查询 中 的 LIMIT 子 句 。 


有 时 候 也 可 以 将 LIMIT 查 询 转 换 为 已 知 位 置 的 查询 ， 让 MySQL 通 
过 范围 扫描 获得 到 对 应 的 结果 。 例 如 ， 如 果 在 一 个 位 置 列 上 有 索引 ， 
并 且 预 先 计 算出 了 边界 值 ， 上 面 的 查询 就 可 以 改写 为 : 


mysql> SELECT film_id, description FROM sakila. film 


-> WHERE position BETWEEN 50 AND 54 ORDER BY position; 


对 数据 进行 排名 的 问题 也 与 此 类 似 ， 但 往往 还 会 同时 和 GROUP 
BY 混合 使 用 。 在 这 种 情况 下 通常 都 需要 预先 计算 并 存储 排名 信息 。 


LIMIT 和 OFFSET 的 问题 ， 其 实 是 OFFSET 的 问题 ， 它 会 导 到 
MySQL 扫 描 大 量 不 需要 的 行 然后 再 抛弃 掉 。 如 果 可 以 使 用 书签 记录 上 
次 取 数 据 的 位 置 ， 那 么 下 次 就 可 以 直接 从 该 书签 记录 的 位 置 开 始 扫 
昔 ， 这 样 就 可 以 避免 使 用 OFFSET。 例 如 ， 若 需要 按照 租借 记录 做 翻 
页 ， 那 么 可 以 根据 最 新 一 条 租借 记录 向 后 追溯 ， 这 种 做 法 可 行 是 因为 
租借 记录 的 主键 是 单调 增长 的 。 首 先 使 用 下 面 的 查询 获得 第 一 组 结 
果 : 


mysql> SELECT * FROM sakila.rental 


-> ORDER BY rental_id DESC LIMIT 20; 


假设 上 面 的 查询 返回 的 是 主键 为 16049 到 16030 的 租借 记录 ， 那 么 
下 一 页 查询 就 可 以 从 16030 这 个 点 开始 : 


mysql> SELECT * FROM sakila.rental 
-> WHERE rental_id < 16030 


-> ORDER BY rental_id DESC LIMIT 20; 


该 技术 的 好 处 是 无 论 翻 页 到 多 么 后 面 ， 其 性 能 都 会 很 好 。 


其 他 优化 办 法 还 包括 使 用 预先 计算 的 汇总 表 ， 或 者 关联 到 一 个 元 
余 表 ， 见 余 表 只 包含 主键 列 和 需要 做 排序 的 数据 列 。 还 可 以 使 用 
Sphinx 优 化 一 些 搜索 操作 ， 参 考 附录 F 可 以 获得 更 多 相关 信息 。 


6.7.6 ”优化 
SQL CALC FOUND ROWS 


分 页 的 时 候 ， 另 一 个 常用 的 技巧 是 在 LIMIT 语 句 中 加 上 
SQL_CALC_FOUND_ROWS 提 示 (hint) ， 这 样 就 可 以 获得 去 掉 
LIMIT 以 后 满足 条 件 的 行 数 ， 因 此 可 以 作为 分 页 的 总 数 。 看 起 来 ， 
MySQL 做 了 一 些 非常 “高 深 ” 的 优化 ， 像 是 通过 某 种 方法 预测 了 总 行 
数 。 但 实际 上 ，MySQL 只 有 在 扫描 了 所 有 满足 条 件 的 行 以 后 ， 才 会 知 
道行 数 ， 所 以 加 上 这 个 提示 以 后 ， 不 管 是 否 需 要 ，MySQL 都 会 扫描 所 
有 满足 条 件 的 行 ， 然 后 再 抛弃 掉 不 需要 的 行 ， 而 不 是 在 满足 LIMIT 的 
行 数 后 就 终止 扫描 。 所 以 该 提示 的 代价 可 能 非常 高 。 


一 个 更 好 的 设计 是 将 具体 的 页 数 换 成 “下 一 页 ”按钮 ， 假 设 每 页 显 
示 20 条 记录 ， 那 么 我 们 每 次 查询 时 都 是 用 LIMIT 返 回 21 条 记录 并 只 显 
示 20 条 ， 如 果 第 21 条 存在 ， 那 么 我 们 就 显示 “下 一 页 ”按钮 ， 否 则 就 说 
明 没 有 更 多 的 数据 ， 也 就 无 须 显示 “下 一 页 ”按钮 了 。 


另 一 种 做 法 是 先 获 取 并 缓存 较 多 的 数据 一 一 例如 ， 组 存 1000 条 
一 一 然后 每 次 分 页 都 从 这 个 缓存 中 获取 。 这 样 做 可 以 让 应 用 程序 根据 
结果 集 的 大 小 采取 不 同 的 策略 ， 如 果 结 果 集 少 于 1000， 束 可 以 在 页 面 
上 显示 所 有 的 分 页 链接 ， 因 为 数据 都 在 缓存 中 ， 所 以 这 样 做 性 能 不 会 
有 问题 。 如 果 结 果 集 大 于 1000， 则 可 以 在 页 面 上 设计 一 个 额外 的 “找到 


的 结果 多 于 1000 条 ”之 类 的 按钮 。 这 两 种 策略 都 比 每 次 生成 全 部 结果 集 
再 抛弃 掉 不 需要 的 数据 的 效率 要 高 很 多 。 


有 时 候 也 可 以 考虑 使 用 EXPLAIN 的 结果 中 的 rows 列 的 值 来 作为 结 
果 集 总 数 的 近似 值 (实际 上 Google 的 搜索 结果 总 数 也 是 个 近似 值 ) 。 
当 需 要 精确 结果 的 时 候 ， 再 单独 使 用 COUNT (*) 来 满足 需求 ， 这 时 
如 果 能 够 使 用 索引 有 覆盖 扫描 则 通常 也 会 比 SQL_CALC_FOUND_ROWS 
快 得 多 。 


6.7.7 ”优化 UNION 查 询 


MySQL 总 是 通过 创建 并 填充 临时 表 的 方式 来 执行 UNION 查 询 。 
此 很 多 优化 策略 在 UNION 查 询 中 都 没 法 很 好 地 使 用 。 经 常 需要 手工 地 
将 WHERE、LIMIT、ORDER BY 等 子 句 “下 推 * 到 UNION 的 各 个 子 查 询 
中 ， 以 便 优化 器 可 以 充分 利用 这 些 条 件 进行 优化 (例如 ， 直 接 将 这 些 
子 句 风 余地 写 一 份 到 各 个 子 查询 ) 。 


除非 确实 需要 服务 器 消除 重复 的 行 ， 否 则 就 一 定 要 使 用 UNION 
ALL， 这 一 点 很 重要 。 如 果 没 有 ALL 关 键 字 ，MySQL 会 给 临时 表 加 上 
DISTINCT 选 项 ， 这 会 导致 对 整个 临时 表 的 数据 做 唯一 性 检查 。 这 样 
做 的 代价 非常 高 。 即 使 有 ALL 关 键 字 ，MYySQL 仍 然 会 使 用 临时 表 存 储 
结果 。 事 实 上 ，MySQL 总 是 将 结果 放 入 临时 表 ， 然 后 再 读 出 ， 再 返回 
给 客户 端 。 虽 然 很 多 时 候 这 样 做 是 没有 必要 的 〈 例 如 ，MySQL 可 以 直 
接 把 这 些 结 果 返 回 给 客户 端 ) o 


6.7.8 “静态 查询 分 析 


Percona Toolkit 中 的 pt-query-advisor 能 够 解析 查询 日 志 、 分 析 查 询 
模式 ， 然 后 给 出 所 有 可 能 存在 潜在 问题 的 查询 ， 并 给 出 足够 详细 的 建 
议 。 这 像 是 给 MySQL 所 有 的 查询 做 一 次 全 面 的 健康 检查 。 它 能 检测 出 
许多 常见 的 问题 ， 诸 如 我 们 前 面 介 绍 的 内 容 。 


6.79 ”使 用 用 户 目 定 义 变量 


用 户 自 定义 变量 是 一 个 容易 被 遗志 的 MySQL 特 性 ， 但 是 如 果 能 够 
用 好 ， 发 挥 其 潜力 ， 在 某 些 场景 可 以 写 出 非常 高 效 的 查询 语句 。 在 查 
询 中 混合 使 用 过 程 化 和 关系 化 逻辑 的 时 候 ， 自 定义 变 eee 
用 。 单 纯 的 关系 查询 将 所 有 的 东西 都 当成 无 序 的 数据 集合 ， 并 且 一 
性 操作 它们 。MySQL 则 采用 了 更 加 程序 化 的 处 理 方式 。 ee 
种 方式 有 它 的 弱点 ， 但 如 果 能 熟练 地 掌握 ， 则 会 发 现 其 强大 之 处 ， 而 
用 户 自 定义 变量 也 可 以 给 这 种 方式 带 来 很 大 的 帮助 。 


用 户 自 定义 变量 是 一 个 用 来 存储 内 容 的 临时 容器 ， 在 连接 MySQL 
的 整个 过 程 中 都 存在 。 可 以 使 用 下 面 的 SET 和 SELECT 语句 来 定义 它们 


(28); 


mysql> SET @one := 1; 
mysql> SET @min_actor := (SELECT MIN(actor_id) FROM 
sakila.actor); 


mysql> SET @last_week := CURRENT_DATE-INTERVAL 1 WEEK; 


然后 可 以 在 任何 可 以 使 用 表达 式 的 地 方 使 用 这 些 自 定义 变 


a 


mysql> SELECT ... WHERE col<=@last_week; 


在 了 解 自 定 义 变量 的 强大 之 前 ， 我 们 再 看 看 它 自身 的 一 些 属性 和 
限制 ， 看 看 在 哪些 场景 下 我 们 不 能 使 用 用 户 自 定 义 变量 


。 使 用 自 定 义 变 量 的 查询 ， 无 法 使 用 查询 缓存 。 

。 不 能 在 使 用 常量 或 者 标识 符 的 地 方 使 用 自 定 义 变量 ， 例 如 表 名 、 
列 名 和 LIMIT 子 句 中 。 

。 用 户 自 定义 变量 的 生命 周期 是 在 一 个 连接 中 有 效 ， 所 以 不 能 用 它 
们 来 做 连接 间 的 通信 。 
ee 量 可 能 让 看 起 来 之 无 
关系 的 代码 发 生 交 互 (如 果 是 这 样 ， 通 常 是 代码 bug 或 者 连接 闻 
bug， 这 类 情况 确实 可 能 发 生 ) 。 

。 在 5.0 之 前 的 版 本 ， 是 大 小 写 敏 感 的 ， 所 以 要 注意 代码 在 不 同 
MySQL 版 本 间 的 兼容 性 问题 。 

。 不 能 显 式 地 声明 自 定 义 变量 的 类 型 。 确 定 未 定义 变量 的 具体 类 型 
的 时 机 在 不 同 MySQL 版 本 中 也 可 能 不 一 样 。 如 果 你 希望 变量 是 整 
数 类 型 ， 那 么 最 好 在 初始 化 的 时 候 就 赋值 为 0%， 如 果 希 望 是 浮 点 型 
则 赋值 为 0.0， 如 果 希 望 是 字符 串 则 赋值 为 "， 用 户 自 定义 变量 的 
类 型 在 赋值 的 时 候 会 改变 。MySQL 的 用 户 自 定义 变量 是 一 个 动态 
类 型 。 

。 MyVySQL 优 化 器 在 某 些 场景 下 可 能 会 将 这 些 变 量 优化 掉 ， 这 

。 赋值 的 顺序 和 赋值 的 时 间 点 并 不 总 是 固定 的 ， 这 依赖 于 优化 器 的 
决定 。 实 际 情 况 可 能 很 让 人 困惑 ， 后 面 我 们 将 看 到 这 一 点 。 


。 购 值 符号 := 的 优先 级 非常 低 ， 所 以 需要 注意 ， 赋 值 表 达 式 应 该 使 
用 明确 的 括号 。 使 用 未 定义 变量 不 会 产生 任何 语法 错误 ， 如 果 没 
有 意识 到 这 一 点 ， 非 常 容易 犯 错 。 


优化 排名 语句 


使 用 用 户 自 定义 变量 (3 的 一 个 重要 特性 是 你 可 以 在 给 一 个 变量 赋 
值 的 同时 使 用 这 个 变量 。 换 句 话说 ， 用 户 自 定义 变量 的 赋值 具有“ 左 
值 ” 特 性 。 下 面 的 例子 展示 了 如 何 使 用 变量 来 实现 一 个 类 似 “ 行 号 (row 
number) ”的 功能 : 


mysql> SET @rownum := 0; 

mysql> SELECT actor_id, @rownum := @rownum + 1 AS rownum 
-> FROM sakila.actor LIMIT 3; 

+----------+--------+ 


这 个 例子 的 实际 意义 并 不 大 ， 它 只 是 实现 了 一 个 和 该 表 主 键 一 样 
的 列 。 不 过 ， 我 们 也 可 以 把 这 当 作 一 个 排名 。 现 在 我 们 来 看 一 个 更 复 
杂 的 用 法 。 我 们 先 编写 一 个 查询 获取 演 过 最 多 电影 的 前 10 位 演员 ， 然 
后 根据 他 们 的 出 总 电影 次 数 做 一 个 排名 ， 如 果 出 兰 的 电影 效 量 一 样 ， 
则 排名 相同 。 我 们 先 编写 一 个 查询 ， 返 回 每 个 演员 参 演 电影 的 数量 : 

nysql> SELECT actor id, COUNT(*) as ent 


-> LIMIT 10; 


ee eer 


+----------+-----+ 


| 

| 23 | 37 | 
| 81 | 36 | 
| 106 | 35 

| 60 | 35 | 
| 13 | 35 | 
| 158 | 35 
ana alas 二 十 


现在 我 们 再 把 排名 加 上 去 ， 这 里 看 到 有 四 名 演员 都 参 演 了 35 部 电 
影 ， 所 以 他 们 的 排名 应 该 是 相同 的 。 我 们 使 用 三 个 变量 来 实现 : 一 个 
用 来 记录 当前 的 排名 ， 一 个 用 来 记录 前 一 个 演员 的 排名 ， 还 有 一 个 用 
来 记录 当前 演员 参 演 的 电影 数量 。 只 有 当前 演员 参 演 的 电影 的 数量 和 
前 一 个 演员 不 同时 ， 排 名 才 变 化 。 我 们 先 试 试 下 面 的 写法 : 


mysql> SET @curr_cnt := 0, @prev_cnt := 0, @rank := 0; 
mysql> SELECT actor_id, 
-> @curr_cnt := COUNT(*) AS cnt, 
-> @rank := IF(@prev_cnt <> @curr_cnt, @rank + 1, @rank) AS rank, 
-> @prev_cnt := @curr_cnt AS dummy 
-> FROM sakila.film_actor 
-> GROUP BY actor_id 
-> ORDER BY cnt DESC 


-> LIMIT 10; 
+---------- +----- +------ +------- + 
| actor_id | cnt | rank | dumy | 
+---------- +----- +------ +------- 十 
| 107 | 42| øl 0 | 


| 102 | 41 | 0 | a | 


Oops 一 一 排名 和 统计 列 一 直 都 无 法 更 新 ， 这 是 什么 原因 ? 


对 这 类 问题 ， 是 没 法 给 出 一 个 放 之 四 海 皆 准 的 答案 的 ， 例 如 ,一 
个 变量 名 的 拼写 错误 就 可 能 导致 这 样 的 问题 (这 个 案例 中 并 不 是 这 个 
RA) ， 具 体 问 题 要 具体 分 析 。 这 里 ， 通 过 EXPLAIN 我 们 看 到 将 会 使 
用 临时 表 和 文件 排序 ， 所 以 可 能 是 由 于 变量 赋值 的 时 间 和 我 们 预料 的 
不 同 。 


在 使 用 用 户 自 定义 变量 的 时 候 ， 经 常会 遇 到 一 些 “ 诡 异 ” 的 现象 ， 
要 揪 出 这 些 问题 的 原因 通 单 都 不 容易 ， 但 是 相 比 其 带 来 的 好 处 ， 深 究 


这 些 问 题 是 值得 的 。 使 用 SQL 语句 生成 排名 值 通常 需要 做 两 次 计算 ， 
例如 ， 需 要 额外 计算 一 次 出 演 过 相同 数量 电影 的 演员 有 哪些 。 使 用 变 
量 则 可 一 次 完成 一 一 这 对 性 能 是 一 个 很 大 的 提升 。 


针对 这 个 案例 ， 另 一 个 简单 的 方案 是 在 FROM 子 句 中 使 用 子 查询 
生成 一 个 中 间 的 临时 表 : 


mysql> SET @curr_cnt := 0, @prev_cnt := 0, @rank := 0; 
-> SELECT actor_id, 
@curr_cnt := cnt AS cnt, 
@rank := IF(@prev_cnt <> @curr_cnt, @rank + 1, @rank) AS rank, 
@prev_cnt := @curr_cnt AS dummy 
M ( 


FROM sakila.film_actor 
GROUP BY actor_id 


> 
> 
> 
> 
-> SELECT actor_id, COUNT(*) AS cnt 
> 
> 
> ORDER BY cnt DESC 

> 

> 


) as der 
Eee ips ese E, 
actor_id | cnt | rank | dummy | 
a E eciamaaleaias 和 + 
107 42 | 1 42 | 
102 41 | 2 41 | 
198 | 40 | 3 40 | 
181 | 39 | 4 39 | 
23 | 37 | 5 37 | 
81 36 | 6 36 | 
106 | 35 | 7 35 | 
60 | 35 | 7 35 | 
13 | 35 | 7 35 | 
158 | 35 | 7 35 | 
E a E ceceataiaiaias + 


避免 重复 查询 刚刚 更 新 的 数据 


如 果 在 更 新 行 的 同时 又 希望 获得 该 行 的 信息 ， 要 怎么 做 才能 避免 
重复 的 查询 呢 ? 不 幸 的 是 ，MySQL 并 不 支持 像 PostgreSQL 那 样 的 
UPDATE RETURNING 语 法 ， 这 个 语法 可 以 帮 你 在 更 新 行 的 时 候 同 时 
返回 该 行 的 信息 。 还 好 在 MySQL 中 你 可 以 使 用 变量 来 解决 这 个 问题 。 
例如 ， 我 们 的 一 个 客户 希望 能 够 更 高 效 地 更 新 一 条 记录 的 时 间 惟 ， 同 


时 希望 查询 当前 记录 中 存放 的 时 间 戳 是 什么 。 简 单 地 ， 可 以 用 下 面 的 
代码 来 实现 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1; 
SELECT lastUpdated FROM t1 WHERE id = 1; 


使 用 变量 ， 我 们 可 以 按 如 下 方式 重 写 查 询 : 


UPDATE t1 SET lastUpdated = NOW() WHERE id = 1 AND @now := 
NOW(); 


SELECT @now; 


上 面 看 起 来 仍然 需要 两 个 查询 ， 需 要 两 次 网 络 来 回 ， 但 是 这 里 的 
第 二 个 查询 无 须 访问 任何 数据 表 ， 所 以 会 快 非常 多 。 (如 果 网 络 延迟 
非常 大 ， 那 么 这 个 优化 的 意义 可 能 不 大 ， 不 过 对 这 个 客户 ， 这 样 做 的 
效果 很 好 。) 


统计 更 新 和 插入 的 数量 


当 使 用 了 INSERT ON DUPLICATE KEY UPDATE 的 时 候 ， 如 果 想 
知道 到 底 插入 了 多 少 行 数据 ， 到 底 有 多 少数 据 是 因为 冲突 而 改写 成 更 
新 操作 的 ? Kerstian Kohntopp 在 他 的 博客 上 给 出 了 一 个 解决 这 个 问题 
的 办 法 S9。 实 现 办 法 的 本 质 如 下 : 


INSERT INTO ti(c1, c2) VALUES(4, 4), (2, 1), (3, 1) 


ON DUPLICATE KEY UPDATE 
c1 = VALUES(c1) + ( © * ( @x := Qx +1 ) ) 


当 每 次 由 于 冲突 导致 更 新 时 对 变量 @x 自 增 一 次 。 然 后 通过 对 这 个 
表达 式 乘 以 0 来 让 其 不 影响 要 更 新 的 内 容 。 另 外 ，MySQL 的 协议 会 返 
回 被 更 改 的 总 行 数 ， 所 以 不 需要 单独 统计 这 个 值 。 


确定 取 值 的 顺序 


使 用 用 户 自 定义 变量 的 一 个 最 常见 的 问题 就 是 没有 注意 到 在 赋值 
和 读 取 变 量 的 时 候 可 能 是 在 查询 的 不 同 阶 段 。 例 如 ， 在 SELECT 子 句 
中 进行 赋值 然后 在 WHERE 子 句 中 读 取 变 量 ， 则 可 能 变量 取 值 并 不 如 
你 所 想 。 下 面 的 查询 看 起 来 只 返回 一 个 结果 ， 但 事实 并 非 如 此 : 


mysql> SET @rownum := 0; 

mysql> SELECT actor_id, @rownum := @rownum + 1 AS cnt 
-> FROM sakila.actor 
-> WHERE @rownum <= 1; 

+---------- +------ 十 

| actor_id | cnt | 


因为 WHERE 和 SELECT 是 在 查询 执行 的 不 同 阶段 被 执行 的 。 如 果 
在 查询 中 再 加 入 ORDER BY 的 话 ， 结 果 可 能 会 更 不 同 : 


mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum := @rownum + 1 AS cnt 


-> FROM sakila.actor 


-> WHERE @rownum <= 1 


-> ORDER BY first_name; 


这 是 因为 ORDER BY5 引 入 了 文件 排序 ， 而 WHERE 条 件 是 在 文件 
排序 操作 之 前 取 值 的 ， 所 以 这 条 查询 会 返回 表 中 的 全 部 记录 。 解 决 这 
个 问题 的 办 法 是 让 变量 的 赋值 和 取 值 发 生 在 执行 查询 的 同一 阶段 : 


mysql> SET @rownum := 0; 
mysql> SELECT actor_id, @rownum AS rownum 
-> FROM sakila.actor 
-> WHERE (@rownum := @rownum + 1) <= 1; 
+---------- +-------- + 
| actor_id | rownum | 


小 测试 : 如 果 在 上 面 的 查询 中 再 加 上 ORDER BY， 那 会 返回 什么 
结果 ? ula 如 果 得 出 的 结果 出 乎 你 的 意料 ， 想 想 为 什么 ? 再 看 
下 面 这 个 查询 会 返回 什么 ， 下 面 的 查询 中 ORDER BY 子 句 会 改变 变量 
值 ， 那 WHERE 语句 执行 时 变量 值 是 多 少 。 


mysql> SET @rownum := 0; 

mysql> SELECT actor_id, first_name, @rownum AS rownum 
-> FROM sakila.actor 
-> WHERE @rownum <= 1 


-> ORDER BY first_name, LEAST(0, @rownum := @rownum + 
1); 


这 个 最 出 人 意料 的 变量 行为 的 答案 可 以 在 EXPLAIN 语 句 中 找到 ， 
注意 看 在 Extra 列 中 的 “Using where”, “Using temporary” 或 者 “Using 


filesort”o 


在 上 面 的 最 后 一 个 例子 中 ， 我 们 引入 了 一 个 新 的 技巧 : 我 们 将 赋 
值 语 句 放 到 LEAST() 遂 数 中 ， 这 样 就 可 以 在 完全 不 改变 排序 顺序 的 时 
候 完成 赋值 操作 (在 上 面 例 子 中 ，LEASTO 函 数 总 是 返回 0) 。 这 个 技 
巧 在 不 希望 对 子 句 的 执行 结果 有 影响 却 又 要 完成 变量 赋值 的 时 候 很 有 
用 。 这 个 例子 中 ， 无 须 在 返回 值 中 新 增 额外 列 。 这 样 的 遂 数 还 有 
GREATEST() ~ LENGHTO 、 ISNULLO ~ NULLIFL() 、 IFO 和 
COALESCE()， 可 以 单独 使 用 也 可 以 组 合 使 用 。 例 如 ，COALESCE() 
可 以 在 一 组 参数 中 取 第 一 个 已 经 被 定义 的 变量 。 


编写 偷懒 的 UNION 


假设 需要 编写 一 个 UNION 查 询 ， 其 第 一 个 子 查 询 作 为 分 支 条 件 先 
执行 ， 如 果 找 到 了 匹配 的 行 ， 则 跳 过 第 二 个 分 支 。 在 某 些 业 务 场景 
确实 会 有 这 样 的 需求 ， 比 如 先 在 一 个 频繁 访问 的 表 中 查找 “ 热 ” 数 据 ， 
找 不 到 再 去 另外 一 个 较 少 访问 的 表 中 查找 * 冷 "数据 。 (区 分 热 数 据 和 
冷 数 据 是 一 个 很 好 的 提高 缓存 命中 率 的 办 法 ) o 


下 面 的 查询 会 在 两 个 地 方 查 找 一 个 用 户 一 一 一 个 主 用 户 表 、 一 个 
长 时 间 不 活跃 的 用 户 表 ， 不 活跃 用 户 表 的 目的 是 为 了 实现 更 高 效 的 归 
fa): 


SELECT id FROM users WHERE id=123 
UNION ALL 


SELECT id FROM users_archived WHERE id=123; 


上 面 这 个 查询 是 可 以 正常 工作 的 ， 但 是 即使 在 users 表 中 已 经 找到 
了 记录 ， 上 面 的 查询 还 是 会 去 归档 表 users_archived 中 再 查找 一 次 。 我 
eee ONS 询 来 抑制 这 样 的 数据 返回 ， 而 且 只 有 当 

一 个 表 中 没有 数据 时 ， 我 们 才 在 第 二 个 表 中 查询 。 一 旦 在 第 一 个 表 
oe 我 们 就 定义 一 个 变量 @found。 我 们 通过 在 结果 列 中 做 一 
次 赋值 来 实现 ， 然 后 将 赋值 放 在 函数 GREATEST 中 来 避免 返回 额外 的 
数据 。 为 了 明确 我 们 的 结果 到 底 来 自 哪 个 表 ， 我 们 新 增 了 一 个 包含 表 
名 的 列 。 最 后 我 们 需要 在 查询 的 末尾 将 变量 重 置 为 NULL， 这 样 保 证 
遍历 时 不 干扰 后 面 的 结果 。 完 成 的 查询 如 下 : 


SELECT GREATEST(@found := -1, id) AS id, 'users' AS 
which_tbl 
FROM users WHERE id = 1 
UNION ALL 
SELECT id, 'users_archived' 
FROM users_archived WHERE id = 1 AND @found IS NULL 
UNION ALL 
SELECT 1, 'reset' FROM DUAL WHERE ( @found := NULL ) IS 
NOT NULL; 


用 户 目 定义 变量 的 其 他 用 处 


不 仅 是 在 SELECT 语句 中 ， 在 其 他 任何 类 型 的 SQL 语句 中 都 可 以 
对 变量 进行 赋值 。 事 实 上 ， 这 也 是 用 户 自 定义 变量 最 大 的 用 途 。 例 


如 ， 可 以 像 前 面 使 用 子 查询 的 方式 改进 排名 语句 一 样 来 改进 UPDATE 
语句 。 


不 过 ， 我 们 需要 使 用 一 些 技巧 来 获得 我 们 希望 的 结果 。 有 时 ， 优 

化 器 会 把 变量 当 作 一 个 编译 时 常量 来 对 待 ， 而 不 是 对 其 进行 赋值 。 将 

函数 放 在 类 似 于 LEASTO 这 样 的 函数 中 通常 可 以 避免 这 样 的 问题 。 另 

一 个 办 法 是 在 查询 被 执行 前 检查 变量 是 否 被 赋值 。 不 同 的 场景 下 使 用 
不 同 的 办 法 。 


通过 一 些 实践 ， 可 以 了 解 所 有 用 户 自 定义 变量 能 够 做 的 有 趣 的 事 
情 ， 例 如 下 面 这 些 用 法 : 


。 查询 运行 时 计算 总 数 和 平均 值 。 

。 模拟 GROUP 语句 中 的 函数 FIRSTO 和 LASTO。 

对 大 量 数据 做 一 些 数 据 计 算 。 

计算 一 个 大 表 的 MD5 散 列 值 。 

。 编写 一 个 样本 处 理 函 数 ， 当 样本 中 的 数值 超过 某 个 边界 值 的 时 候 
将 其 变 成 0。 

。 模拟 读 / 写 游标 。 

。 在 SHOW 语句 的 WHERE 子 句 中 加 入 变量 值 。 


C.J. DATE 的 难题 


C.J. DATE 建 议 在 使 用 数据 库 设计 方法 时 尽量 让 SQL 数据 库 符 合 
传统 关系 数据 库 的 要 求 。 这 也 是 根据 关系 模型 设计 SQL 时 的 初衷 ， 
但 坦白 地 说 ， 在 这 一 点 上 ，MySQL 远 不 如 其 他 数据 库 管 理 系统 做 得 
好 。 所 以 如 果 按照 C.J. DATE 书 中 的 建议 编写 的 适合 关系 模型 的 SQL 


语句 在 MySQL 中 运行 的 效率 并 不 高 ， 例 如 编写 一 个 多 层 的 子 查询 。 
很 不 幸 ， 这 是 因为 MySQL 本 身 的 限制 导致 无 法 按照 标准 的 模式 运 
行 。 我 们 强烈 建议 你 阅读 这 本 书 SQL and Relational Theory:How to 
Write Accurate SQL Code 

( http://shop.xreilly.com/product/0636920022879.do ) (O'Reilly 出 
版 )”， 它 将 改变 你 对 SQL 语 句 的 认识 。 


68 ”案例 学 习 


通常 ， 我 们 要 做 的 不 是 查询 优化 ， 不 是 库 表 结构 优化 ， 不 是 索引 
优化 也 不 是 应 用 设计 优化 一 一 在 实践 中 可 能 要 面 对 所 有 这 些 搅和 在 一 
起 的 情况 。 本 节 的 案例 将 为 大 家 介绍 一 些 经 常 困扰 用 户 的 问题 和 解决 
方法 。 另 外 我 们 还 要 推荐 Bill Karwin 的 书 SQL Antipatterns (一 本 实践 
型 的 书籍 ) 。 它 将 介绍 如 何 使 用 SQL 解 决 各 种 程序 员 疑 难 杂 症 。 


6.8.1 ”使 用 MySQL 构 建 一 个 队列 表 


使 用 MySQL 来 实现 队列 表 是 一 个 取 巧 的 做 法 ， 我 们 看 到 很 多 系统 
在 高 流量 、 高 并 发 的 情况 下 表现 并 不 好 。 典 型 的 模式 是 一 个 表 包 含 多 
种 类 型 的 记录 : 未 处 理 记 录 、 已 处 理 记 录 、 正 在 处 理 记录 等 。 一 个 或 
者 多 个 消费 者 线程 在 表 中 查找 未 处 理 的 记录 ， 然 后 声称 正在 处 理 ， 当 
处 理 完成 后 ， 再 将 记录 更 新 成 已 处 理 状态 。 一 般 的 ， 例 如 邮件 发 送 、 
多 命令 处 理 、 评 论 修改 等 会 使 用 类 似 模式 。 


通常 有 两 个 原因 使 得 大 家 认为 这 样 的 处 理 方式 并 不 合适 。 第 一 ， 
随 着 队列 表 越 来 越 大 和 索引 深度 的 增加 ， 找 到 未 处 理 记录 的 速度 会 随 
之 变 慢 。 你 可 以 通过 将 队列 表 分 成 两 部 分 来 解决 这 个 问题 ， 就 是 将 已 
处 理 记录 归档 或 者 存放 到 历史 表 ， 这 可 以 始终 保证 队列 表 很 小 。 


第 二 ， 一 般 的 处 理 过 程 分 两 步 ， 先 找到 未 处 理 记录 然后 加 锁 。 找 
到 记录 会 增加 服务 器 的 压力 ， 而 加 锁 操 作 则 会 让 各 个 消费 者 进程 增加 
竞争 ， 因 为 这 是 一 个 串 行 化 的 操作 。 在 第 11 章 ， 我 们 会 看 到 这 为 什么 
会 限制 可 扩展 性 。 


找到 未 处 理 记 录 一 般 来 说 都 没 问 题 ， 如 果 有 问题 则 可 以 通过 使 用 
消息 的 方式 来 通知 各 个 消费 者 。 具 体 的 ， 可 以 使 用 一 个 带 有 注释 的 
SLEEPO 贞 数 做 超时 处 理 ， 如 下 : 


SELECT /* waiting on unsent_emails */ SLEEP (10000); 


这 让 线程 一 直 阻 塞 ， 直 到 两 个 条 件 之 一 满足 : 10000 秒 后 超时 ， 或 
者 另 一 个 线程 使 用 KILL QUERY 结 束 当 前 的 SLEEP。 因 此 ， 当 再 向 队 
列表 中 新 增 一 批 数据 后 ， 可 以 通过 SHOW PROCESSLIST， 根 据 注 释 
找到 当前 正在 休眠 的 线程 ， 并 将 其 KILL。 你 可 以 使 用 函数 
GET_ LOCK0O 和 RELEASE_ LOCK0O 来 实现 通知 ， 或 者 可 以 在 数据 库 之 
外 实现 ， 例 如 使 用 一 个 消息 服务 。 


最 后 需要 解决 的 问题 是 如 何 让 消费 者 标记 正在 处 理 的 记录 ， 而 不 
至 于 让 多 个 消费 者 重复 处 理 一 个 记录 。 我 们 看 到 大 家 一 般 使 用 
SELECT FOR UPDATE 来 实现 。 这 通常 是 扩展 性 问题 的 根源 ， 这 会 导 
致 大 量 的 事务 阻塞 并 等 待 。 


一 般 ， 我 们 要 尽量 避免 使 用 SELECT FOR UPDATE。 不 光 是 队列 
表 ， 任 何 情况 下 都 要 尽量 避免 。 总 是 有 别 的 更 好 的 办 法 实现 你 的 目 
在 队列 表 的 案例 中 ， 可 以 直接 使 用 UPDATE 来 更 新 记录 ， 然 后 检 

是 否 还 有 其 他 的 记录 需要 处 理 。 我 们 看 看 具体 实现 ， 我 们 先 建立 如 
Tihs: 


CREATE TABLE unsent_emails ( 
id INT NOT NULL PRIMARY KEY AUTO_INCREMENT 
- columns for the message, from, to, subject, etc. 
status ENUM('unsent', 'claimed', 'sent'), 
owner INT UNSIGNED NOT NULL DEFAULT 0， 
ts TIMESTAMP, 
KEY (owner, status, ts) 


); 


该 表 的 列 owner 用 来 存储 当前 正在 处 理 这 个 记录 的 连接 ID ， 即 由 
孙 数 CONNECTION_IDO 返 回 的 ID。 如 果 当 前 记录 没有 被 任何 消费 者 
处 理 ， 则 该 值 为 0。 


我 们 还 经 单 看 到 的 一 个 办 法 是 ， 如 下 面 所 示 的 一 次 处 理 10 条 记 
录 : 


BEGIN; 
SELECT id FROM unsent emails 
LIMIT 10 FOR UPDATE; 


- result: 123, 456, 789 


UPDATE unsent_emails 
SET status = 'claimed', owner = CONNECTION_ID() 
WHERE id IN(123, 456, 789); 

COMMIT; 


看 到 这 里 的 SELECT 碍 询 可 以 使 用 到 索引 的 两 个 列 ， 因 此 理论 上 

本 人 问题 是 ， 在 上 面 两 个 查询 之 间 的 “ 间 隐 时 间 ”， 

这 里 的 锁 会 让 所 有 其 他 同样 的 查询 全 部 都 被 阻塞 。 所 有 的 这 样 的 查询 
将 使 用 相同 的 索引 ， 扫 描 索 引 相同 的 部 分 ， 所 以 很 可 能 会 被 阻塞 。 


如 果 改 进 成 下 面 的 写法 ， 则 会 更 加 高 效 : 


SET AUTOCOMMIT = 1; 
COMMIT; 
UPDATE unsent_emails 
SET status = 'claimed', owner = CONNECTION_ID() 
WHERE owner = © AND status = ‘'unsent' 
LIMIT 10; 
SET AUTOCOMMIT = ©; 
SELECT id FROM unsent_emails 
WHERE owner = CONNECTION_ID() AND status = 'claimed'; 


- result: 123, 456, 789 


根本 就 无 须 使 用 SELECT 查询 去 找到 哪些 记录 还 没有 被 处 理 。 客 
户 端的 协议 会 告诉 你 更 新 了 几 条 记录 ， 所 以 可 以 知道 这 次 需要 处 理 多 
少 条 记录 。 


所 有 的 SELECT FOR UPDATE 都 可 以 使 用 类 似 的 方法 改写 。 


最 后 还 需要 处 理 一 种 特殊 情况 : 那些 正在 被 进程 处 理 ， 而 进程 本 
身 却 由 于 某 种 原因 退出 的 情况 。 这 种 情况 处 理 起 来 很 简单 。 你 只 需要 
定期 运行 UPDATE 语 句 将 它 都 更 新 成 原始 状态 就 可 以 了 ， 然 后 执行 
SHOW PROCESSLIST ， 获 取 当 前 正在 工作 的 线程 ID ， 并 使 用 一 些 
WHERE 条 件 避 免 取 到 那些 刚 开 始 处 理 的 进程 。 假 设 我 们 获取 的 线程 
ID 有 (10. 20, 30) ， 下 面 的 更 新 语句 会 将 处 理 时 间 超 过 10 分 钟 的 记 
录 状 态 都 更 新 成 初始 状态 : 


UPDATE unsent_emails 
SET owner = 0, status = 'unsent' 
WHERE owner NOT IN(O, 10, 20, 30) AND status = 'claimed' 


AND ts < CURRENT_TIMESTAMP - INTERVAL 10 MINUTE, 


另外 ， 注 意 看 看 是 如 何 巧妙 地 设计 索引 让 这 个 查询 更 加 高 效 的 。 
这 也 是 上 一 章 和 本 章 知识 的 结合 。 因 为 我 们 将 范围 条 件 放 在 WHERE 
条 件 的 未 尾 ， 这 个 查询 恰好 能 够 使 用 索引 的 全 部 列 。 其 他 的 查询 也 都 
能 用 上 这 个 索引 ， 这 就 避免 了 再 新 增 一 个 额外 的 索引 来 满足 其 他 的 查 
询 。 


这 里 我 们 将 总 结 一 下 这 个 案例 中 的 一 些 基 础 原则 : 


。 尽量 少 做 事 ， 可 以 的 话 就 不 要 做 任何 事情 。 除 非 不 得 已 ， 否 则 不 
要 使 用 轮 询 ， 因 为 这 会 增加 负载 ， 而 且 还 会 带 来 很 多 低产 出 的 工 
作 。 


尽 可 能 快 地 完成 需要 做 的 事情 。 尽 量 使 用 UPDATE 代 替 先 SELECT 
FOR UPDATE 再 UPDATE 的 写法 ， 因 为 事务 提交 的 速度 越 快 ， 持 
有 的 锁 时 间 就 越 短 ， 可 以 大 大 减少 竞争 和 加 速 串 行 执 行 效 率 。 将 
已 经 处 理 完 成 和 未 处 理 的 数据 分 开 ， 保 证 数据 集 足 够 小 。 

这 个 案例 的 另 一 个 启发 是 ， 某 些 查询 是 无 法 优化 的 ; 考虑 使 用 不 
同 的 查询 或 者 不 同 的 策略 去 实现 相同 的 目的 。 通 常 对 于 SELECT 
FOR UPDATE 就 需要 这 样 处 理 。 


有 时 ， 最 好 的 办 法 就 是 将 任务 队列 从 数据 库 中 迁移 出 来 。Redis 就 
是 一 个 很 好 的 队列 容器 ， 也 可 以 使 用 memcached 来 实现 。 另 一 个 选择 
是 使 用 Q4M 存 储 引 擎 ， 但 我 们 没有 在 生产 环境 使 用 过 这 个 存储 引擎 ， 
所 以 这 里 也 没 办 法 提供 更 多 的 参考 。RabbitMQ 和 GearmanS 也 可 以 实 
现 类 似 的 功能 。 


6.8.2 ”计算 两 点 之 间 的 距离 


地 理 信息 计算 再 次 出 现在 我 们 的 书 中 了 。 不 建议 用 户 使 用 MySQL 
做 太 复杂 的 空间 信息 存储 一 一 PostgreSQL 在 这 方面 是 不 错 的 选择 一 一 
我 们 这 里 将 介绍 一 些 弟 用 的 计算 模式 。 一 个 典型 的 例子 是 计算 以 某 个 
ANAO, EFAA Ro 


典型 的 实际 案例 可 能 是 查找 某 个 点 附近 所 有 可 以 出 租 的 房子 ， 或 
者 社交 网 站 中 “匹配 ”附近 的 用 户 ， 等 等 。 假 设 我 们 有 如 下 表 : 


CREATE TABLE locations ( 


id INT NOT NULL PRIMARY KEY AUTO_INCREMENT, 


name VARCHAR(30), 
lat FLOAT NOT NULL, 
lon FLOAT NOT NULL 
) ; 
INSERT INTO locations(name, lat, lon) 
VALUES('Charlottesville, Virginia', 38.03, -78.48), 
('Chicago, Illinois', 41.85, -87.65), 


('Washington, DC', 38.89, -77.04); 


这 里 经 度 和 纬度 的 单位 是 “ 度 "”， 通 常 我 们 假设 地 球 是 圆 的 ， 然 后 
使 用 两 点 所 在 最 大 圆 〈 半 正 矢 ) 公式 来 计算 两 点 之 间 的 距离 。 现 在 有 
坐标 latA 和 1onA、1latB 和 1onB， 那 么 点 A 和 点 B 的 距离 计算 公式 如 下 : 


ACOS( 
CoS(latA) * COS(latB) * COS(lonA - lonB) 
+ SIN(latA) * SIN(latB) 
) 


计算 出 的 结果 是 一 个 弧度 ， 如 果 要 将 结果 的 单位 转换 成 英里 或 者 
干 米 ， 则 需要 乘 以 地 球 的 半径 ， 也 就 是 3 959 英 里 或 者 6 371 干 米 。 假 设 
我 们 需要 找 出 所 有 距离 Baron 所 居住 的 地 方 Charlottesville 100 英 里 以 内 
的 点 ， 那 么 我 们 需要 将 经 纬度 带 入 上 面 的 计算 公式 : 
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SELECT * FROM locations WHERE 3979 * ACOS( 
papa et at)) * COS (RADIANS (38. 03)) * COS(RADIANS(lon) - RADIANS(-78.48)) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03)) 
) <= 100; 


+----+---------------------------+-------+--------+ 
+----+---------------------------+-------+--------+ 
| 1 | Charlottesville, Virginia | 38.03 | -78.48 | 
| 3 | Washington, DC | 38.89 | -77.04 | 


+----+---------------------------+-------+--------+ 


这 类 碍 询 不 仅 无 法 使 用 索引 ， 而 且 还 会 非 浊 消 耗 CPU 时 间 ， 给 服 
器 审 来 很 大 的 压力 ， 而 且 我 们 还 得 反复 计算 这 个 。 那 要 怎样 优化 


这 个 设计 中 有 几 个 地 方 可 以 做 优化 。 第 一 ， 看 看 是 否 真 的 需要 这 


么 精确 的 计算 。 其 实 这 种 算法 已 经 有 很 多 不 精确 的 地 方 了 ， 如 下 所 


7J: 


。 两 个 地 方 之 间 的 直线 距离 可 能 是 100 英 里 ， 但 实际 上 它们 之 间 的 行 
走 距离 很 可 能 不 是 这 个 值 。 无 论 你 们 在 哪 两 个 地 方 ， 要 到 达 彼 此 
位 置 的 行走 距离 多 半 都 不 是 直线 距离 ， 路 上 可 能 需要 绕 很 多 的 
变 ， 比 如 说 如 果 有 一 条 河 ， 需 要 绕 远 走 到 一 个 有 桥 的 地 方 。 所 
以 ， 这 里 计算 的 绝对 距离 只 是 一 个 参考 值 。 


。 如 果 我 们 根据 邮政 编码 来 确定 某 个 人 所 在 的 地 区 ， 再 根据 这 个 地 


区 的 中 心 位 置 计算 他 和 别人 的 距离 ， 那 么 这 本 身 就 是 一 个 估算 。 
Baron 住 在 Charlottesville， 不 过 不 是 在 中 心地 区 ， 他 对 华盛顿 物理 
位 置 的 中 心 也 不 感 兴趣 


所 以 ， 通 常 并 不 需要 精确 计算 ， 很 多 应 用 如 果 这 样 计算 ， 多 半 是 


认真 过 头 了 。 这 类 似 于 有 效 数字 的 估算 : 计算 结果 的 精度 永远 都 不 会 
比 测量 的 值 更 高 。 ( 换 句 话说 ,“ 错 进 ， 错 出 ”。) 


如 果 不 需 要 太 高 的 精度 ， 那 么 我 们 认为 地 球 是 圆 的 应 该 也 没什么 
问题 ， 其 实 准确 的 说 应 该 是 椭圆 。 根 据 毕 达 哥 拉 斯 定理 ， 做 些 三 角 遂 
数 变换 ， 我 们 可 以 把 上 面 的 公式 转换 得 更 简单 ， 只 需要 做 些 求 和 、 乘 
积 以 及 平方 根 运算 ， 就 可 以 得 出 一 个 点 是 否 在 男 一 个 点 多 少 英里 之 
A, (33) 


等 等 ， 为 什么 就 到 这 为 止 ? 我 们 是 否 真 需要 计算 一 个 圆周 呢 ? A 
什么 不 直接 使 用 一 个 正方 形 代替 ? 边 长 为 200 瑞 里 的 正方 形 ， 一 个 顶点 
到 中 心 的 距离 大 概 是 141 英 里 ， 这 和 实际 计算 的 100 英 里 相差 得 并 不 是 
那么 远 。 那 我 们 根据 正方 形 公式 来 计算 弧度 为 0.0253 (100 #2) 的 中 
心 到 边 长 的 距离 : 


SELECT * FROM locations 
WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + 
DEGREES(0.0253) 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + 


DEGREES(0.0253); 


现在 我 们 看 看 如 何 使 用 索引 来 优化 这 个 查询 。 简 单 地 ， 我 们 可 以 
增加 索引 (lat,lon) 或 者 (lon,lat) 。 不 过 这 样 做 效果 并 不 会 很 好 。 正 
如 我 们 所 知 ，MySQL 5.5 和 之 前 的 版 本 ， 如 果 第 一 列 是 范围 查询 的 
话 ， 就 无 法 使 用 索引 后 面 的 列 了 。 因 为 两 个 列 都 是 范围 的 ， 所 以 这 里 
只 能 使 用 索引 的 一 个 列 (BETWEEN 等 效 于 一 个 大 于 和 一 个 小 于 ) 。 


我 们 再 次 想起 了 通常 使 用 的 INO 优 化 。 我 们 先 新 增 两 个 列 ， 用 来 
存储 坐标 的 近似 值 FLOOR()， 然 后 在 查询 中 使 用 INO 将 所 有 点 的 整数 
值 都 放 到 列表 中 。 下 面 是 我 们 需要 新 增 的 列 和 索引 : 


mysql> ALTER TABLE locations 
-> ADD lat_floor INT NOT NULL DEFAULT 0, 
-> ADD lon floor INT NOT NULL DEFAULT 0, 
-> ADD KEY(lat_floor, lon_floor); 
mysql> UPDATE locations 
-> SET lat_floor = FLOOR(lat), lon_floor = FLOOR(1lon); 


现在 我 们 可 以 根据 坐标 的 一 定 学 围 的 近似 值 来 搜索 了 ， 这 个 近似 
值 包括 地 板 值 和 天 人 花 板 值 ， 地 理 上 分 别 对 应 的 是 南北 。 下 面 的 查询 为 
我 们 只 展示 了 如 何 查 某 个 范围 的 所 有 点 ; 数值 需要 在 应 用 程序 中 计算 
而 不 是 MySQL 中 : 


mysql> SELECT FLOOR( 38.03 - DEGREES(0.0253)) AS lat 1b， 
3 CEILING( 38.03 + DEGREES(0.0253)) AS lat_ub, 
-> FLOOR(-78.48 - DEGREES(0.0253)) AS lon 1b, 
-> CEILING(-78.48 + DEGREES(0.0253)) AS lon ub; 


+-------- +-------- +-------- +-------- 十 
| lat lb | lat_ub | lon lb | lon ub | 
+-------- +-------- +-------- +-------- 十 
| 36 | 40 | -80 | ya | 
+-------- +-------- +-------- +-------- 十 


现在 我 们 就 可 以 生成 INO 列 表 中 的 整数 了 ， 也 就 是 前 面 计 算 的 地 
板 和 天 花 板 数值 之 间 的 数字 。 下 面 是 加 上 WHERE 条 件 的 完整 查询 : 


SELECT * FROM locations 
WHERE lat BETWEEN 38.03 - DEGREES(0.0253) AND 38.03 + 
DEGREES(0.0253) 
AND lon BETWEEN -78.48 - DEGREES(0.0253) AND -78.48 + 


DEGREES(0.0253) 


AND lat_floor IN(36,37,38,39,40) AND lon_floor 


IN(-80, -79, -78, -77); 


使 用 近似 值 会 让 我 们 的 计算 结果 有 些 偏差 ， 所 以 我 们 还 需要 一 些 
额外 的 条 件 吻 除 在 正方 形 之 外 的 点 。 这 和 前 面 使 用 CRC32 做 哈 希 索引 
类 似 : 先 建 一 个 索引 帮 有 我 们 过 滤 出 近似 值 ， 再 使 用 精确 条 件 匹 配 所 有 
的 记录 并 移 除 不 满足 条 件 的 记录 。 


事实 上 ， 到 这 时 我 们 就 无 须根 据 正方 形 的 近似 来 过 滤 数据 了 ， 我 
们 可 以 使 用 最 大 圆 公式 或 者 毕 达 哥 拉 斯 定理 来 计算 : 


SELECT * FROM locations 
WHERE lat_floor IN(36,37,38,39,40) AND lon_floor 
IN(-80, -79, -78, -77) 
AND 3979 * ACOS( 
COS(RADIANS(lat)) *  COS(RADIANS(38.03)) * 
COS(RADIANS(lon) - RADIANS(-78.48) ) 
+ SIN(RADIANS(lat)) * SIN(RADIANS(38.03) ) 


) <= 100; 


这 时 计算 精度 再 次 回 到 前 面 一 一 使 用 一 个 精确 的 圆周 一 一 不 过 ， 
现在 的 做 法 更 快 S99。 只 要 能 够 高 效 地 过 滤 掉 大 部 分 的 点 ， 例 如 使 用 近 
似 整数 和 索引 ， 之 后 再 做 精确 数学 计算 的 代价 并 不 大 。 只 是 不 要 直接 
使 用 大 圆周 的 算法 ， 否 则 速度 会 很 慢 。 


Ep Sphinx 有 很 多 内 置 的 地 理 信息 搜索 功能 ， 比 MySQL 实 现 要 好 很 多 。 如 果 正 在 考虑 


使 用 MyISAM 的 GIS 函 数 ， 并 使 用 上 面 的 技巧 来 计算 ， 那 么 你 需要 记 住 : 这 样 做 效果 并 不 会 很 
好 ，MyISAM 本 身 也 并 不 适合 大 数据 量 、 高 并 发 的 应 用 ， 另 外 MyISAM 本 身 还 有 一 些 弱点 ， 
如 数据 文件 骨 溃 、 表 级 锁 等 。 


回顾 一 下 上 面 的 案例 ， 我 们 采用 了 下 面 这 些 常 用 的 优化 策略 : 


尽量 少 做 事 ， 可 能 的 话 尽量 不 做 事 。 这 个 案例 中 就 不 要 对 所 有 的 
点 计算 大 圆周 公式 ; 先 使 用 简单 的 方案 过 滤 大 多 数 数据 ， 然 后 下 
到 过 滤 出 来 的 更 小 的 集合 上 使 用 复杂 的 公式 运算 。 

快速 地 完成 事情 。 确 保 在 你 的 设计 中 尽 可 能 地 让 查询 都 用 上 合适 
的 索引 ， 使 用 近似 计算 (例如 本 案例 中 ， 认 为 地 球 是 平 的 ， 使 用 
一 个 正方 形 来 近似 圆周 ) 来 避免 复杂 的 计算 。 

。 需要 的 时 候 ， 尽 可 能 让 应 用 程序 完成 一 些 计算 。 例 如 本 案例 中 ， 
在 应 用 程序 中 计算 所 有 的 三 角 阔 数 。 


6.8.3 ”使 用 用 户 目 定义 函数 


当 SQL 语 句 已 经 无 法 高 效 地 完成 某 些 任务 的 时 候 ， 这 里 我 们 将 介 
绍 最 后 一 个 高 级 的 优化 技巧 。 当 你 需要 更 快 的 速度 ， 那 么 C 和 C++ 是 很 
好 的 选择 。 当 然 ， 你 需要 一 定 的 C 或 C++ 编 程 技巧 ， 否 则 你 写 的 程序 很 
可 能 会 让 服务 器 月 并。 这 和 “能 力 越 强 ， 责 任 越 大 ”类 似 。 


我 们 将 在 下 一 章 为 你 展示 如 何 编 写 一 个 用 户 自 定义 函数 
(UDFs) ， 不 过 这 一 章 就 将 通过 一 个 案例 看 看 如 何 用 好 一 个 用 户 自 定 
义 冰 数 。 有 一 个 客户 ， 在 项 目 中 需要 如 下 的 功能 :“ 我 们 需要 根据 两 个 
随机 的 64 位 数字 计算 它们 的 XOR 值 ， 来 看 两 个 数值 是 否 匹配 。 大 约 有 


3500 万 条 的 记录 需要 在 秒 级 别 完成 。” 经 过 简单 的 计算 就 知道 ， 当 前 的 
硬件 条 件 下 ， 不 可 能 在 MySQL 中 完成 。 那 如 何 解 决 这 个 问题 呢 ? 


问题 的 答案 是 使 用 Yves Trudeau 编 写 的 一 个 计算 程序 ， 这 个 程序 使 
用 SSE4.2 指 令 集 ， 以 一 个 后 台 程 序 的 方式 运行 在 通用 服务 器 上 ， 然 后 
我 们 编写 一 个 用 户 自 定义 函数 ， 通 过 简单 的 网 络 通信 协议 和 前 面 的 程 
序 进 行 交 互 。 


Yves 的 测试 表明 ， 分 布 式 运行 上 面 的 程序 ， 可 以 达到 在 130 上 毫秒 内 
完成 4 百 万 次 匹配 计算 。 通 过 这 样 的 方式 ， 可 以 将 密集 型 的 计算 放 到 一 
些 通 用 的 服务 器 上 ， 同 时 可 以 对 外 界 完全 透明 ， 看 起 来 是 MySQL 完 成 
了 全 部 的 工作 。 正 如 他 们 在 Twitter 上 说 的 : # 太 好 了 ! 这 是 一 个 典型 的 
业务 优化 案例 ， 而 不 仅仅 是 优化 了 一 个 简单 的 技术 问题 。 


6.9 ”总 结 


如 果 把 创建 高 性 能 应 用 程序 比 作 是 一 个 环 环 相 扣 的 “难题 "?， 除 了 
前 面 介 绍 的 schema、 索 引 和 查询 语句 设计 之 外 ， 查 询 优 化 应 该 是 解 开 
“难题 ”的 最 后 一 步 了 。 要 想 写 一 个 好 的 查询 ， 你 必须 要 理解 schema 设 
计 、 索 引 设 计 等 ， 反 之 亦 然 。 


理解 查询 是 如 何 被 执行 的 以 及 时 间 都 消耗 在 哪些 地 方 ， 这 依然 是 
前 面 我 们 介绍 的 响应 时 间 的 一 部 分 。 再 加 上 一 些 诸如 解析 和 优化 过 程 
的 知识 ， 就 可 以 更 进一步 地 理解 上 一 章 讨论 的 MySQL 如 何 访问 表 和 索 
引 的 内 容 了 。 这 也 从 另 一 个 维度 帮助 读者 理解 MySQL 在 访问 表 和 索引 
时 查询 和 索引 的 关系 。 


优化 通常 都 需要 三 管 齐 下 : 不 做 、 少 做 、 快 速 地 做 。 我 们 希望 这 
里 的 案例 能 够 帮助 你 将 理论 和 实践 联系 起 来 。 


除了 这 些 基础 的 手段 ， 包 括 查 询 、 表 结构 、 索 引 等 ，MySQL 还 有 
一 些 高 级 的 特性 可 以 帮助 你 优化 应 用 ， 例 如 分 区 ， 分 区 和 索引 有 些 类 
似 但 是 原理 不 同 。MySQL 还 支持 查询 缓存 ， 它 可 以 帮 你 缓存 查询 结 
果 ， 当 完全 相同 的 查询 再 次 执行 时 ， 直 接 使 用 缓存 结果 (回想 一 下 
“不 做 ”) 。 我 们 将 在 下 一 章 中 介绍 这 些 特性 。 


(1) 有 时 候 你 可 能 还 需要 修改 一 些 查询 ， 减 少 这 些 查 询 对 系统 中 运行 的 其 他 查询 的 影响 。 
这 种 情况 下 ， 你 是 在 减少 一 个 查询 的 资源 消耗 ， 这 我 们 在 第 3 章 已 经 讨论 过 。 


(2) 如 果 应 用 服务 器 和 数据 库 不 在 同一 台 主机 上 ， 网 络 开销 就 显得 很 明显 了 。 即 使 是 在 同 
一 台 服 务 器 上 仍然 会 有 数据 传输 的 开销 。 


(3) 更 多 内 容 请 参考 后 面 的 “优化 COUNTO 查 询 ”。 

(4) 例如 关联 查询 结果 返回 的 一 条 记录 通常 是 由 多 条 记录 组 成 。 译 者 注 
(5) Percona Toolkit 中 的 pt-archiver 工 具 就 可 以 安全 而 简单 地 完成 这 类 工作 。 
(6) Query Cacheo 译 者 注 

(7) 如 果 查 询 太 大 ， 服 务 端 会 拒绝 接收 更 多 的 数据 并 抛 出 相应 错误 。 

(8) 你 可 以 使 用 SQL_BUFFER_RESULT， 后 面 将 再 介绍 这 点 。 

(9) 回忆 一 下 前 面 的 客户 端 和 服务 器 的 “ 传 球 ” 比 喻 。 译 者 注 

(10) 这 里 是 指 Query Cache。 译 者 注 


(11) Percona 版 本 的 MySQL 中 提供 了 一 个 新 的 特性 ， 可 以 在 先 将 
注释 移 除 再 算 哈 希 值 ， 这 对 于 不 同 注释 的 相同 查询 可 以 命中 相同 的 查询 缓存 结 


(12) 例如 ， 在 关联 操作 中 ， 范 围 检 查 的 执行 计划 会 针对 每 一 行 重新 评估 索引 。 可 以 通过 
EXPLAIN 执 行 计划 中 的 Extra 列 是 否 有 “range checked for each record” 来 确认 这 一 点 。 该 执行 计 
划 还 会 增加 select_full_range_join 这 个 服务 器 变量 的 值 。 


(13) 一 部 电影 没有 演员 ， 是 有 点 奇怪 。 不 过 在 示例 数据 库 Sakila 中 影片 SLACKER 
FIAISONS 没 有 任何 演员 ， 它 的 描述 是 “ 瘤 鱼 和 见识 过 中 国 古 代 鳄 鱼 的 学 生 的 简短 传说 ”。 


译 者 注 
(15) 后 面 我 们 会 看 到 MySQL 查 询 执行 过 程 并 没有 这 么 简单 ，MySQL 做 了 很 多 优化 操作 。 


(16) MySQL 的 临时 表 是 没有 任何 索引 的 ， 在 编写 复杂 的 子 查询 和 关联 查询 的 时 候 需 要 注 
意 这 一 点 。 这 一 点 对 UNION 查 询 也 一 样 。 

(17) 在 MySQL 5.6 和 MariaDB 中 有 了 重大 改变 ， 这 两 个 版 本 都 引入 了 更 加 复杂 的 执行 计 
划 。 

(18) MySQL 根 据 执行 计划 生成 输出 。 这 和 原 查 询 有 完全 相同 的 语义 ， 但 是 查询 语句 可 能 
并 不 完全 相同 。 


(19) 严格 来 说 ，MySQL 并 不 根据 读 取 的 记录 来 选择 最 优 的 执行 计划 。 实 际 上 ，MySQL 通 
过 预 估 需 要 读 取 的 数据 页 来 选择 ， 读 取 的 数据 页 越 少 越 好 。 不 过 读 取 的 记录 数 通常 能 够 很 好 
地 反映 一 个 查询 的 成 本 。 


(20) 查询 的 cost。 译 者 注 

(21) 内 存 。 译 者 注 

(22) 可 以 通过 一 些 办 法 来 影响 这 个 行为 一 例如， 我 们 可 以 使 用 
SQL_BUFFER_RESULT. 参考 后 面 的 “查询 优化 提示 ” 

(23) 相当 于 Oracle 中 的 跳跃 索引 扫描 (skip index scan) o 

(24) 而 不 是 NULL。 译 者 注 

(25) 也 可 以 写成 这 样 的 SUMO 表 达 式 : SUM (color='blue') , SUM (color='red') o 

(26) 值得 一 提 的 是 ，MariaDB 修 复 了 这 个 限制 。 

(27) 翻 页 到 非常 靠 后 的 页 面 。 译 者 注 

(28) 在 某 些 场景 下 ， 也 可 以 直接 使 用 = 进行 赋值 ， 不 过 为 了 避免 歧义 ， 建 议 始终 使 用 :=。 

(29) 为 行文 方便 ， 后 面 在 不 引起 歧义 的 情况 下 将 简称 为 “变量 ”。 译 者 注 

(30) &¥ http://mysqidump.azundris.com/archives/86-Down-the-dirty-road.htmlo 


(31) Baron 认 为 在 一 些 社 交 了 网 站 上 归档 一 些 常见 不 活跃 用 户 后 ， 用 户 重 新 回 到 网 站 时 有 这 
样 的 需求 ， 当 用 户 再 次 登录 时 ， 一 方面 我 们 需要 将 其 从 归档 中 重新 拿 出 来 ， 另 外 ， 还 可 以 给 
他 发 送 一 份 欢迎 邮件 。 这 对 一 些 不 活跃 的 用 户 是 非常 好 的 一 个 优化 。 在 第 11 章 我 们 还 会 再 次 


讨论 这 个 问题 。 
(32) BF http://www.rabbitmq.com#ihttp://gearman.orgo 


(33) 要 想 有 更 多 的 优化 ， 你 可 以 将 三 角 函 数 的 计算 放 到 应 用 中 ， 而 不 要 在 数据 库 中 计 
算 。 三 角 函 数 是 非常 消耗 CPU 的 操作 。 如 果 将 坐标 都 转换 成 弧度 存放 ， 则 对 数据 库 来 说 就 简 
化 了 很 多 。 为 了 保证 我 们 的 案例 简单 ， 不 要 引入 太 多 别 的 因子 ， 所 以 这 里 我 们 将 不 再 做 更 多 
的 优化 了 。 


(14) joino 


译 者 注 


(34) 再 一 次 ， 需 要 使 用 应 用 程序 中 的 代码 来 计算 这 样 的 表达 式 COS (RADIANS 
(38.03) ) 。 


第 7 章 ”MySQL 高 级 特性 


MySQL 从 5.0 和 5.1 版 本 开始 引入 了 很 多 高 级 特性 ， 例 如 分 区 、 触 
发 器 等 ， 这 对 有 其 他 关系 型 数据 库 使 用 背景 的 用 户 来 说 可 能 并 不 陌 
生 。 这 些 新 特性 吸引 了 很 多 用 户 开始 使 用 MySQL。 不 过 ， 这 些 特性 的 
性 能 到 底 如 何 ， 还 需要 用 户 真 正 使 用 过 才能 知道 。 本 章 我 们 将 为 大 家 
介绍 ， 在 真实 的 世界 中 ， 这 些 特性 表现 如 何 ， 而 不 是 只 简单 地 介绍 人 参 
考 手 册 或 者 宣传 材料 上 的 数据 。 


7.1 分 区 表 


对 用 户 来 说 ， 分 区 表 是 一 个 独立 的 逻辑 表 ， 但 是 底层 由 多 个 物理 
子 表 组 成 。 实 现 分 区 的 代码 实际 上 是 对 一 组 底层 表 的 句柄 对 象 
(Handler Object) 的 封装 。 对 分 区 表 的 请 求 ， 都 会 通过 句柄 对 象 转化 
成 对 存储 引擎 的 接口 调用 。 所 以 分 区 对 于 SQL 层 来 说 是 一 个 完全 封装 
底层 实现 的 黑 盒 子 ， 对 应 用 是 透明 的 ， 但 是 从 底层 的 文件 系统 来 看 就 
很 容易 发 现 ， 每 一 个 分 区 表 都 有 一 个 使 用 # 分 隔 命名 的 表 文 件 。 


MySQL 实 现 分 区 表 的 方式 一 一 对 底层 表 的 封装 一 一 意味 着 索引 也 
是 按照 分 区 的 子 表 定义 的 ， 而 没有 全 局 索引 。 这 和 Oracle 不 同 ， 在 
Oracle 中 可 以 更 加 灵活 地 定义 索引 和 表 是 否 进行 分 区 。 


MySQL 在 创建 表 时 使 用 PARTITION BY 子 句 定义 每 个 分 区 存放 的 
数据 。 在 执行 查询 的 时 候 ， 优 化 器 会 根据 分 区 定义 过 滤 那 些 没 有 我 们 
需要 数据 的 分 区 ， 这 样 查询 就 无 须 扫 描 所 有 分 区 一 一 只 需要 查找 包含 
需要 数据 的 分 区 就 可 以 了 。 


分 区 的 一 个 主要 目的 是 将 数据 按照 一 个 较 粗 的 粒度 分 在 不 同 的 表 
中 。 这 样 做 可 以 将 相关 的 数据 存放 在 一 起 ， 另 外 ， 如 果 想 一 次 批量 删 
除 整个 分 区 的 数据 也 会 变 得 很 方便 。 


在 下 面 的 场景 中 ， 分 区 可 以 起 到 非常 大 的 作用 : 


。 表 非常 大 以 至 于 无 法 全 部 都 放 在 内 存 中 ， 或 者 只 在 表 的 最 后 部 分 
有 热点 数据 ， 其 他 均 是 历史 数据 。 

。 分 区 表 的 数据 更 容易 维护 。 例 如 ， 想 批量 删除 大 量 数据 可 以 使 用 
清除 整个 分 区 的 方式 。 另 外 ， 还 可 以 对 一 个 独立 分 区 进行 优化 、 
检查 、 修 复 等 操作 。 

。 分 区 表 的 数据 可 以 分 布 在 不 同 的 物理 设备 上 ， 从 而 高 效 地 利用 多 
个 硬件 设备 。 

。 可 以 使 用 分 区 表 来 避免 某 些 特殊 的 瓶颈 ,例如 InnoDB 的 单个 索引 
的 互 斥 访问 、ext3 文 件 系 统 的 inode 锁 竞争 等 。 

。 如 果 需 要 ， 还 可 以 备份 和 恢复 独立 的 分 区 ， 这 在 非常 大 的 数据 集 
的 场景 下 效果 非常 好 。 


MySQL 的 分 区 实现 非常 复杂 ， 我 们 不 打算 介绍 实现 的 全 部 细节 。 
这 里 我 们 将 专注 在 分 区 性 能 方面 ， 所 以 如 果 想 了 解 更 多 的 关于 分 区 的 
基础 知识 ， 我 们 建议 阅读 MySQL 官 方 手册 中 的 “分 区 ”一 节 ， 其 中 介绍 
了 很 多 分 区 相关 的 基础 知识 。 另 外 ， 还 可 以 阅读 CREATE TABLE, 
SHOW CREATE TABLE, ALTER TABLE 和 
INFORMATION _SCHEMA.PARTITIONS, EXPLAINK FARK BAN 
介绍 。 分 区 特性 使 得 CREATE TABLE 和 ALTER TABLE 命 令 变 得 更 加 


复杂 了 。 


分 区 表 本 身 也 有 一 些 限制 ， 下 面 是 其 中 比较 重要 的 几 点 : 


。 一 个 表 最 多 只 能 有 1024 个 分 区 。 

在 MySQL 5.1 中 ， 分 区 表达 式 必 须 是 整数 ， 或 者 是 返回 整数 的 表 
达 式 。 在 MySQL 5.5 中 ， 某 些 场景 中 可 以 直接 使 用 列 来 进行 分 
区 。 

如 果 分 区 字段 中 有 主键 或 者 唯一 索引 的 列 ， 那 么 所 有 主键 列 和 唯 
一 索引 列 都 必须 包含 进来 。 

© 分 区 表 中 无 法 使 用 外 键 约 束 。 


7.1.1 分 区 表 的 原理 


如 前 所 述 ， 分 区 表 由 多 个 相关 的 底层 表 实 现 ， 这 些 底层 表 也 是 由 
句柄 对 象 (Handler object) 表示 ， 所 以 我 们 也 可 以 直接 访问 各 个 分 
区 。 存 储 引 和 擎 管理 分 区 的 各 个 底层 表 和 管理 普通 表 一 样 (所 有 的 底层 
表 都 必须 使 用 相同 的 存储 引擎 ) ， 分 区 表 的 索引 只 是 在 各 个 底层 表 上 
各 自 加 上 一 个 完全 相同 的 索引 。 从 存储 引擎 的 角度 来 看 ， 底 层 表 和 一 
个 普通 表 没有 任何 不 同 ， 存 储 引 擎 也 无 须知 道 这 是 一 个 普通 表 还 是 一 
个 分 区 表 的 一 部 分 。 


分 区 表 上 的 操作 按照 下 面 的 操作 逻辑 进行 : 
SELECT 查询 


当 查 询 一 个 分 区 表 的 时 候 ， 分 区 层 先 打 开 并 锁 住所 有 的 底层 
表 ， 优 化 器 先 判断 是 否 可 以 过 滤 部 分 分 区 ， 然 后 再 调用 对 应 的 存 
储 引 擎 接口 访问 各 个 分 区 的 数据 。 


INSERT 操 作 


当 写 入 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 然 
后 确定 哪个 分 区 接收 这 条 记录 ， 再 将 记录 写 入 对 应 底层 表 。 


DELETE 操 作 


当 删 除 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 然 
后 确定 数据 对 应 的 分 区 ， 最 后 对 相应 底层 表 进 行 删 除 操作 。 


UPDATE 操 作 


当 更 新 一 条 记录 时 ， 分 区 层 先 打开 并 锁 住 所 有 的 底层 表 ， 
MySQL 先 确定 需要 更 新 的 记录 在 哪个 分 区 ， 然 后 取出 数据 并 更 
新 ， 再 判断 更 新 后 的 数据 应 该 放 在 哪个 分 区 ， 最 后 对 底层 表 进 行 
写 入 操作 ， 并 对 原 数据 所 在 的 底层 表 进 行 删除 操作 。 


有 些 操作 是 支持 过 滤 的 。 例 如 ， 当 删除 一 条 记录 时 ，MySQL 需 要 
先 找 到 这 条 记录 ， 如 果 WHERE 条 件 恰好 和 分 区 表达 式 匹 配 ， 就 可 以 
将 所 有 不 包含 这 条 记录 的 分 区 都 过 滤 掉 。 这 对 UPDATE 语 句 同样 有 
效 。 如 果 是 INSERT 操 作 ， 则 本 身 就 是 只 命中 一 个 分 区 ， 其 他 分 区 都 会 
被 过 滤 掉 。MySQL 先 确定 这 条 记录 属于 哪个 分 区 ， 再 将 记录 写 入 对 应 
的 底层 分 区 表 ， 无 须 对 任何 其 他 分 区 进行 操作 。 


虽然 每 个 操作 都 会 * 先 打开 并 锁 住 所 有 的 底层 表 ”， 但 这 并 不 是 说 
分 区 表 在 处 理 过 程 中 是 锁 住 全 表 的 。 如 果 存 储 引 擎 能 够 自己 实现 行 级 
锁 ， 例 如 InnoDB， 则 会 在 分 区 层 释 放 对 应 表 锁 。 这 个 加 锁 和 解锁 过 程 
与 普通 InnoDB 上 的 查询 类 似 。 


后 面 我 们 会 通过 一 些 例子 来 看 看 ， 当 访问 一 个 分 区 表 的 时 候 ， 打 
开 和 锁 住所 有 底层 表 的 代价 及 其 带 来 的 后 果 。 


7.1.2 分 区 表 的 类 型 


MySQL 支 持 多 种 分 区 表 。 我 们 看 到 最 多 的 是 根据 范围 进行 分 区 ， 
每 个 分 区 存储 落 在 某 个 范围 的 记录 ， 分 区 表达 式 可 以 是 列 ， 也 可 以 是 
包含 列 的 表达 式 。 例 如 ， 下 表 就 可 以 将 每 一 年 的 销售 额 存放 在 不 同 的 
分 区 里 : 


CREATE TABLE sales ( 
order_date DATETIME NOT NULL, 

- Other columns omitted 

) ENGINE=InnoDB PARTITION BY RANGE(YEAR(order_date)) ( 
PARTITION p_2010 VALUES LESS THAN (2010), 
PARTITION p_2011 VALUES LESS THAN (2011), 
PARTITION p_2012 VALUES LESS THAN (2012), 
PARTITION p_catchall VALUES LESS THAN MAXVALUE ); 


PARTITION 分 区 子 句 中 可 以 使 用 各 种 函数 。 但 有 一 个 要 求 ， 表 达 
式 返 回 的 值 要 是 一 个 确定 的 整数 ， 且 不 能 是 一 个 常数 。 这 里 我 们 使 用 
了 为 数 YEARO， 也 可 以 使 用 任何 其 他 的 函数 ， 如 TIO_DAYSO。 根 据 时 间 
间隔 进行 分 区 ， 是 一 种 很 常见 的 分 区 方式 ， 后 面 我 们 还 会 再 回 过 头 来 
看 这 个 例子 ， 看 看 如 何 优化 这 个 例子 来 避免 一 些 问题 。 


MySQL 还 支持 键 值 、 哈 希 和 列表 分 区 ， 这 其 中 有 些 还 支持 子 分 
区 ， 不 过 我 们 在 生产 环境 中 很 少见 到 。 在 MySQL 5.5 中 ， 还 可 以 使 用 
RANGE COLUMNS 类 型 的 分 区 ， 这 样 即使 是 基于 时 间 的 分 区 也 无 须 
再 将 其 转化 成 一 个 整数 ， 后 面 将 详细 介绍 。 


在 我 们 看 过 的 一 个 子 分 区 的 案例 中 ， 对 一 个 类 似 于 前 面 我 们 设计 
的 按时 间 分 区 的 InnoDB 表 ， 系 统 通过 子 分 区 可 降低 索引 的 互 斥 访问 的 
竞争 。 最 近 一 年 的 分 区 的 数据 会 被 非常 频繁 地 访问 ， 这 会 导致 大 量 的 
互 斥 量 的 竞争 。 使 用 哈 希 子 分 区 可 以 将 数据 切 成 多 个 小 片 ， 大 大 降低 
互 斥 量 的 竞争 问题 。 


我 们 还 看 到 的 一 些 其 他 的 分 区 技术 包括 : 


。 根据 键 值 进行 分 区 ， 来 减少 InnoDB 的 互 斥 量 竞争 。 

。 使 用 数学 模 汶 数 来 进行 分 区 ， 然 后 将 数据 轮 询 放 入 不 同 的 分 区 。 
例如 ， 可 以 对 日 期 做 模 7 的 运算 ， 或 者 更 简单 地 使 用 返回 周 几 的 函 
数 ， 如 果 只 想 保留 最 近 几 天 的 数据 ， 这 样 分 区 很 方便 。 

假设 表 有 一 个 自 增 的 主键 列 id， 希 望 根 据 时 间 将 最 近 的 热点 数据 
集中 存放 。 那 么 必须 将 时 间 戳 包含 在 主键 当中 才 行 ， 而 这 和 主键 
本 身 的 意义 相 矛 盾 。 这 种 情况 下 也 可 以 使 用 这 样 的 分 区 表达 式 来 
实现 相同 的 目的 : HASH (id DIV 1000000) ， 这 将 为 100 万 数据 
建立 一 个 分 区 。 这 样 一 方面 实现 了 当初 的 分 区 目的 ， 另 一 方面 比 
起 使 用 时 间 范 围 分 区 还 避免 了 一 个 问题 ， 就 是 当 超过 一 定 阅 值 
时 ， 如 果 使 用 时 间 范 围 分 区 就 必须 新 增 分 区 。 


7.1.3 ”如 何 使 用 分 区 表 


假设 我 们 希望 从 一 个 非常 大 的 表 中 查询 出 一 段 时 间 的 记录 ， 而 这 
个 表 中 包含 了 很 多 年 的 历史 数据 ， 数 据 是 按照 时 间 排 序 的 ， 例 如 ， 希 
望 查询 最 近 几 个 月 的 数据 ， 这 大 约 有 10 亿 条 记录 。 可 能 过 些 年 本 书 会 
过 时 ， 不 过 我 们 还 是 假设 使 用 的 是 2012 年 的 硬件 设备 ， 而 原 表 中 有 
10TB 的 数据 ， 这 个 数据 量 远大 于 内 存 ， 并 且 使 用 的 是 传统 硬盘 ， 不 是 


闪存 《多数 SSD 也 没有 这 么 大 的 空间 ) 。 你 打算 如 何 查 询 这 个 表 ? 如 
何 才能 更 高 效 ? 


首先 很 肯定 : 因为 数据 量 巨 大 ， 肯 定 不 能 在 每 次 查询 的 时 候 都 扫 
凋 全 表 。 考 虑 到 索引 在 空间 和 维护 上 的 消耗 ， 也 不 希望 使 用 索引 。 即 
使 真 的 使 用 索引 ， 你 会 发 现 数据 并 不 是 按照 想 要 的 方式 聚集 的 ， 而 且 
会 有 大 量 的 碎片 产生 ， 最 终 会 导致 一 个 查询 产生 成 王 上 万 的 随机 IO， 
应 用 程序 也 随 之 僵 死 。 情 况 好 一 点 的 时 候 ， 也 许可 以 通过 一 两 个 索引 
解决 一 些 问 题 。 不 过 多 数 情况 下 ， 索 引 不 会 有 任何 作用 。 这 时 候 只 
两 条 路 可 选 : 让 所 有 的 查询 都 只 在 数据 表 上 做 顺序 扫描 ， 或 者 将 数据 
表 和 索引 全 部 都 缓存 在 内 存 里 。 


这 里 需要 再 陈述 一 遍 : 在 数据 量 超大 的 时 候 ，B-Tree 索 引 就 无 法 
起 作用 了 。 除 非 是 索引 覆盖 查询 ， 否 则 数据 库 服务 器 需要 根据 索引 扫 
首 的 结果 回 表 ， 查 询 所 有 符合 条 件 的 记录 ， 如 果 数 据 量 巨大 ， 这 将 产 
生 大 量 随 机 VO， 随 之 ， 数 据 库 的 响应 时 间 将 大 到 不 可 接受 的 程度 。 另 
外 ， 索 引 维 护 (磁盘 空间 、L/O 操 作 ) 的 代价 也 非常 高 AERA, u 
Infobright， 意 识 到 这 一 点 ， 于 是 就 完全 放弃 使 用 B-Tree 索 引 ， 而 选择 
了 一 些 更 粗 粒 度 的 但 消耗 更 少 的 方式 检索 数据 ， 例 如 在 大 量 数据 上 只 
索引 对 应 的 一 小 块 元 数据 。 


这 正 是 分 区 要 做 的 事情 。 理 解 分 区 时 还 可 以 将 其 当 作 索 引 的 最 初 
形态 ， 以 代价 非常 小 的 方式 定位 到 需要 的 数据 在 哪 一 片 “ 区 域 "。 在 这 
片 “ 区 域 " 中 ， 你 可 以 做 顺序 扫描 ， 可 以 建 索引 ， 还 可 以 将 数据 都 缓存 
到 内 存 ， 等 等 。 因 为 分 区 无 须 额 外 的 数据 结构 记录 每 个 分 区 有 哪些 数 
据 一 一 分 区 不 需要 精确 定位 每 条 数据 的 位 置 ， 也 就 无 须 额外 的 数据 结 
构 一 一 所 以 其 代价 非常 低 。 只 需要 一 个 简单 的 表达 式 就 可 以 表达 每 个 
分 区 存放 的 是 什么 数据 。 


为 了 保证 大 数据 量 的 可 扩展 性 ， 一 般 有 下 面 两 个 策略 : 
全 量 扫描 数据 ， 不 要 任何 索引 。 


可 以 使 用 简单 的 分 区 方式 存放 表 ， 不 要 任何 索引 ， 根 据 分 区 
的 规则 大 致 定位 需要 的 数据 位 置 。 只 要 能 够 使 用 WHERE 条 件 ， 
将 需要 的 数据 限制 在 少数 分 区 中 ， 则 效率 是 很 高 的 。 当 然 ， 也 需 
要 做 一 些 简 单 的 运算 保证 查询 的 响应 时 间 能 够 满足 需求 。 使 用 该 
策略 假设 不 用 将 数据 完全 放 入 到 内 存 中 ， 同 时 还 假设 需要 的 数据 
全 都 在 磁盘 上 ， 因 为 内 存 相对 很 小 ， 数 据 很 快 会 被 挤 出 内 存 ， 所 
以 缓存 起 不 了 任何 作用 。 这 个 策略 适用 于 以 正常 的 方式 访问 大 量 
效 据 的 时 候 。 和 警告 : 后 面 我 们 会 详细 解释 ， 必 须 将 查询 需要 扫描 
的 分 区 个 数 限 制 在 一 个 很 小 的 数量 。 


索 5| 数 据 ， 并 分 离 热 点 。 


如 果 数 据 有 明显 的 “热点 ”, 而 且 除 了 这 部 分 数据 ， 其 他 数据 很 
少 被 访问 到 ， 那 么 可 以 将 这 部 分 热点 数据 单独 放 在 一 个 分 区 中 ， 
让 这 个 分 区 的 数据 能 够 有 机 会 都 缓存 在 内 存 中 。 这 样 查询 就 可 以 
只 访 间 一 个 很 小 的 分 区 表 ， 能 够 使 用 索引 ， 也 能 够 有 效 地 使 用 绥 
存 。 


仅仅 知道 这 些 还 不 够 ，MySQL 的 分 区 表 实 现 还 有 很 多 陷阱 。 下 面 
我 们 看 看 都 有 哪些 ， 以 及 如 何 避 人 免 。 


7.1.4 ”什么 情况 下 会 出 问题 


上 面 我 们 介绍 的 两 个 分 区 策略 都 基于 两 个 非常 重要 的 假设 : 查询 


都 能 够 过 滤 (prunning) 掉 很 多 额外 的 分 多、 分 区 本 身 并 不 会 带 来 很 
多 额外 的 代价 。 而 事实 证 明 ， 这 两 个 假设 在 某 些 场景 下 会 有 问题 。 下 


面 介 绍 一 些 可 能 会 遇 到 的 问题 。 


NULL 值 会 使 分 区 过 滤 无 效 


关于 分 区 表 一 个 容易 让 人 误解 的 地 方 就 是 分 区 的 表达 式 的 值 
可 以 是 NULL : 第 一 个 分 区 是 一 个 特殊 分 区 。 假 设 按照 
PARTITION BY RANGE YEAR (order date) 分 区 ， 那 么 所 有 
order_date 为 NULL 或 者 是 一 个 非法 值 的 时 候 ， 记 录 都 会 被 存放 到 
第 一 个 分 区 四。 现在 假设 有 下 面 的 查询 : WHERE order_date 
BETWEEN '2012-01-01' AND '2012-01-31'。 实 际 上 ，MySQL 会 检 
查 两 个 分 区 ， 而 不 是 之 前 猜想 的 一 个 : 它 会 检查 2012 年 这 个 分 
区 ， 同 时 它 还 会 检查 这 个 表 的 第 一 个 分 区 。 检 查 第 一 个 分 区 是 因 
为 YEAR0 函 数 在 接收 非法 值 的 时 候 可 能 会 返回 NULL 值 ， 那 么 这 
个 范围 的 值 可 能 会 返回 NULL 而 被 存放 到 第 一 个 分 区 了 。 这 一 点 
对 于 其 他 很 多 函数 ， 例 如 TO_DAYS0O 也 一 样 。 多 


如 果 第 一 个 分 区 非常 大 ， 特 别 是 当 使 用 “全 量 扫描 数据 ， 不 要 
任何 索引 ”的 策略 时 ， 代 价 会 非常 大 。 而 且 扫 描 两 个 分 区 来 查找 列 
也 不 是 我 们 使 用 分 区 表 的 初衷 。 为 了 避免 这 种 情况 ， 可 以 创建 一 
个 “无 用 ”的 第 一 个 分 区 ， 例 如， 上 面 的 例子 中 可 以 使 用 
PARTITION p_nulls VALUES LESS THAN (0) 来 创建 第 一 个 分 
区 。 如 果 插 入 表 中 的 数据 都 是 有 效 的， 那么 第 一 个 分 区 就 是 空 
的 ， 这 样 即使 需要 检测 第 一 个 分 多， 代价 也 会 非常 小 。 


在 MySQL 5.5 中 就 不 需要 这 个 优化 技巧 了 ， 因 为 可 以 直接 使 
用 列 本 身 而 不 是 基于 列 的 函数 进行 分 区 : PARTITION BY RANGE 
COLUMNS (order_date) 。 所 以 这 个 案例 最 好 的 解决 方法 是 能 够 
直接 使 用 MySQL 5.5 的 这 个 语法 。 


分 区 列 和 索引 列 不 匹配 


如 果 定 义 的 索引 列 和 分 区 列 不 匹配 ， 会 导致 查询 无 法 进行 分 
区 过 滤 。 假 设 在 列 a 上 定义 了 索引 ， 而 在 列 b 上 进行 分 区 。 因 为 每 
个 分 区 都 有 其 独立 的 索引 ， 所 以 扫描 列 b 上 的 索引 就 需要 扫描 每 一 
个 分 区 内 对 应 的 索引 。 如 果 每 个 分 区 内 对 应 索引 的 非 叶 子 节点 都 
在 内 存 中 ， 那 么 扫描 的 速度 还 可 以 接受 ， 但 如 果 能 跳 过 某 些 分 区 
索引 当然 会 更 好 。 要 避免 这 个 问题 ， 应 该 避免 建立 和 分 区 列 不 匹 
配 的 索引 ， 除 非 查 询 中 还 同时 包含 了 可 以 过 滤 分 区 的 条 件 。 


听 起 来 避免 这 个 问题 很 简单 ， 不 过 有 了 时候 也 会 遇 到 一 些 意 想 
不 到 的 问题 。 例 如 ， 在 一 个 关联 查询 中 ， 分 区 表 在 关联 顺序 中 是 
第 二 个 表 ， 并 且 关 联 使 用 的 索引 和 分 区 条 件 并 不 匹配 。 那 么 关联 
时 针对 第 一 个 表 符 合 条 件 的 每 一 行 ， 都 需要 访问 并 搜索 第 二 个 表 
的 所 有 分 区 。 


选择 分 区 的 成 本 可 能 很 高 


如 前 所 述 分 区 有 很 多 类 型 ， 不 同类 型 分 区 的 实现 方式 也 不 
同 ， 所 以 它们 的 性 能 也 各 不 相同 。 尤 其 是 范围 分 区 ， 对 于 回答 “这 
一 行 属于 哪个 分 区 ”、“ 这 些 符合 查询 条 件 的 行 在 哪些 分 区 ”这 样 的 
问题 的 成 本 可 能 会 非常 高 ， 因 为 服务 器 需要 扫描 所 有 的 分 区 定义 


的 列表 来 找到 正确 的 答案 。 类 似 这 样 的 线性 搜索 的 效率 不 高 ， 所 
以 随 着 分 区 数 的 增长 ， 成 本 会 越 来 越 高 。 


我 们 所 实际 碰 到 的 类 似 这 样 的 最 糟 料 的 一 次 问题 是 按 行 写 入 
大 量 数据 的 时 候 。 每 写 入 一 行 数据 到 范围 分 区 的 表 时 ， 都 需要 扫 
首 分 区 定义 列表 来 找到 合适 的 目标 分 区 。 可 以 通过 限制 分 区 的 数 
量 来 缓解 此 问题 ， 根 据 实践 经 验 ， 对 大 多 数 系统 来 说 ，100 个 左右 
的 分 区 是 没有 问题 的 。 


其 他 的 分 区 类 型 ， 比 如 键 分 区 和 哈 希 分 区 ， 则 没有 这 样 的 问 


题 。 
打开 并 锁 住所 有 底层 表 的 成 本 可 能 很 高 


当 查 询 访问 分 区 表 的 时 候 ，MySQL 需 要 打开 并 锁 住 所 有 的 底 
层 表 ， 这 是 分 区 表 的 另 一 个 开销 。 这 个 操作 在 分 区 过 滤 之 前 发 
生 ， 所 以 无 法 通过 分 区 过 滤 降 低 此 开销 ， 并 且 该 开销 也 和 分 区 类 
型 无 关 ， 会 影响 所 有 的 查询 。 这 一 点 对 一 些 本 身 操作 非常 快 的 查 
询 ， 比 如 根据 主键 查找 单行 ， 会 带 来 明显 的 额外 开销 。 可 以 用 批 
量 操作 的 方式 来 降低 单个 操作 的 此 类 开销 ， 例 如 使 用 批量 插入 或 
者 LOAD DATA INFILE、 一 次 删除 多 行 数据 ， 等 等 。 当 然 同 时 还 
是 需要 限制 分 区 的 个 数 。 


维护 分 区 的 成 本 可 能 很 高 


某 些 分 区 维护 操作 的 速度 会 非常 快 ， 例 如 新 增 或 者 删除 分 区 
( 当 删 除 一 个 大 分 区 可 能 会 很 慢 ， 不 过 这 是 另 一 回 事 ) 。 而 有 些 
操作 ， 例 如 重组 分 区 或 者 类 似 ALTER 语 句 的 操作 : 这 类 操作 需要 


复制 数据 。 重 组 分 区 的 原理 与 ALTER 类 似 ， 先 创建 一 个 临时 的 分 
区 ， 然 后 将 数据 复制 到 其 中 ， 最 后 再 删除 原 分 区 。 


如 上 所 述 ， 分 区 表 不 是 什么 < 银 弹 ”。 下 面 是 目前 分 区 实现 中 的 一 


些 其 他 限制 : 


所 有 分 区 都 必须 使 用 相同 的 存储 引擎 。 

分 区 水 数 中 可 以 使 用 的 水 数 和 表达 式 也 有 一 些 限制 |。 

某 些 存储 引擎 不 支持 分 区 。 

对 于 MyISAM 的 分 区 表 ， 不 能 再 使 用 LOAD INDEX INTO CACHE 
操作 。 

对 于 MyISAM 表 ， 使 用 分 区 表 时 需要 打开 更 多 的 文件 描述 符 。 虽 
然 看 起 来 是 一 个 表 ， 其 实 背后 有 很 多 独立 的 分 区 ， 每 一 个 分 区 对 
于 存储 引擎 来 说 都 是 一 个 独立 的 表 。 这 样 即使 分 区 表 只 占用 一 个 
表 缓 存 条 目 ， 文 件 描述 符 还 是 需要 多 个 。 因 此 ， 即 使 已 经 配置 了 
合适 的 表 缓 存 ， 以 确保 不 会 超过 操作 系统 的 单个 进程 可 以 打开 的 
文件 描述 符 的 个 数 ， 但 对 于 分 区 表 而 言 ， 还 是 会 出 现 超过 文件 描 
述 符 限 制 的 问题 。 


最 后 ， 需 要 指出 的 是 较 老 版 本 的 MySQL 问 题 会 更 多 些 。 所 有 的 软 


件 都 是 有 bug 的 。 分 区 表 在 MySQL 5.1 中 引入 ， 在 后 面 的 5.1.40 和 5.1.50 
之 后 修复 了 很 多 分 区 表 的 bug。 在 MySQL 5.5 中 ， 分 区 表 又 做 了 很 多 改 


进 ， 


这 才 使 得 分 区 表 可 以 逐步 考虑 用 在 生产 环境 了 。 在 即将 发 布 的 


MySQL 5.6 版 本 中 ， 分 区 表 做 了 更 多 的 增强 ， 例 如 新 引入 的 ALTER 
TABLE EXCHANGE PARTITION。 


7.1.5 ”查询 优化 


引入 分 区 给 查询 优化 带 来 了 一 些 新 的 思路 (同时 也 带 来 新 的 
bug) 。 分 区 最 大 的 优点 就 是 优化 器 可 以 根据 分 区 函数 来 过 滤 一 些 分 
区 。 根 据 粗 粒度 索引 的 优势 ， 通 过 分 区 过 滤 通常 可 以 让 查询 扫描 更 少 
的 数据 ERER F) o 


所 以 ， 对 于 访问 分 区 表 来 说 ， 很 重要 的 一 点 是 要 在 WHERE 条 件 
中 融入 分 区 列 ， 有 了 时候 即 使 看 似 多 余 的 也 要 带 上 ， 这 样 就 可 以 让 优化 
器 能 够 过 滤 掉 无 须 访问 的 分 区 。 如 果 没 有 这 些 条 件 ，MySQL 就 需要 让 
对 应 存储 引擎 访问 这 个 表 的 所 有 分 区 ， 如 果 表 非常 大 的 话 ， 就 可 能 会 
非常 慢 。 


使 用 EXPLAIN PARTITION 可 以 观察 优化 器 是 否 执行 了 分 区 过 
滤 ， 下 面 是 一 个 示例 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales \G 


ere Te ee ee Te ee ee eee ee eT 1. row 
ROO TOR IO IO TOR IO ITO TO KR KR IK 
id: 1 
select_type: SIMPLE 
table: sales_by_day 
partitions: p_2010,p_2011,p_2012 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 


ref: NULL 


rows: 3 


Extra: 


正如 你 所 看 到 的 ， 这 个 查询 将 访问 所 有 的 分 区 。 下 面 我 们 在 
WHERE 条 件 中 再 加 入 一 个 时 间 限 制 条 件 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales by_day WHERE 
day < '2011-01-01'\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 as row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 1 
select_type: SIMPLE 
table: sales_by_day 


partitions: p_2011,p_2012 


MySQL 优 化 器 已 经 很 善于 过 滤 分 区 。 比 如 它 能 够 将 范围 条 件 转化 
为 离散 的 值 列 表 ， 并 根据 列表 中 的 每 个 值 过 滤 分 区 。 然 而， 优化 器 也 
不 是 万 能 的 。 下 面 查询 的 WHERE 条 件 理论 上 可 以 过 滤 分 区 ， 但 实际 
上 却 不 行 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales_by_day WHERE 
YEAR(day) = 2010\G 


类 类 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火 火 火炎 1 row 
类 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火 火 火炎 类 
id: 1 


select type: SIMPLE 


table: sales_by_day 


partitions: p_2010,p_2011,p_2012 


Ba ih ce ed Alone agate Leia E 过 滤 分 区 ， 
能 根据 表达 式 的 值 去 过 滤 分 区 ， 即 使 这 个 表达 式 就 是 分 区 函数 也 
a 这 就 和 查询 中 使 用 独立 的 列 才能 使 用 索引 的 道理 是 一 样 的 ( 参 
考 第 5 章 的 相关 内 容 ) 。 所 以 只 需要 把 上 面 的 查询 等 价 地 改写 为 如 下 形 
式 即 可 : 


mysql> EXPLAIN PARTITIONS SELECT * FROM sales by _ day 
-> WHERE day BETWEEN '2010-01-01' AND '2010-12-31'\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 A: row 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 
id: 1 
select_type: SIMPLE 
table: sales_by_day 


partitions: p_2010 


这 里 写 的 WHERE 条 件 中 带 入 的 是 分 区 列 ， 而 不 是 基于 分 区 列 的 
表达 式 ， 所 以 优化 器 能 够 利用 这 个 条 件 过 滤 部 分 分 区 。 一 个 很 重要 的 
原则 是 : 即便 在 创建 分 区 时 可 以 使 用 表达 式 ， 但 在 查询 时 却 只 能 根据 
列 来 过 滤 分 区 。 


优化 器 在 处 理 查询 的 过 程 中 总 能 聪明 地 去 过 滤 分 区 。 例 
如 ， E E 且 关 联系 件 是 分 区 键 ， 
MySQL 就 只 会 在 对 应 的 分 区 里 匹配 行 。 (EXPLAIN 无 法 显示 这 种 情 


况 下 的 分 区 过 滤 ， 因 为 这 是 运行 时 的 分 区 过 滤 ， 而 不 是 查询 优化 阶段 
的 。) 


7.1.6 GR 


合并 表 (Merge table) 是 一 种 早期 的 、 简 单 的 分 区 实现 ， 和 分 区 
表 相 比 有 一 些 不 同 的 限制 ， 并 且 缺 过 优化。 分 区 表 严 格 来 说 是 一 个 逻 
辑 上 的 概念 ， 用 户 无 法 访问 底层 的 各 个 分 区 ， 对 用 户 来 说 分 区 是 透明 
的 。 但 是 合并 表 人 允许 用 户 单独 访问 各 个 子 表 。 分 区 表 和 优化 器 的 结合 
更 紧密 ， 这 也 是 未 来 发 展 的 趋势 ， 而 合并 表 则 是 一 种 将 被 淘 状 的 技 
术 ， 在 未 来 的 版 本 中 可 能 被 删除 。 


和 分 区 表 类 似 的 是 ， 在 MyISAM 中 各 个 子 表 可 以 被 一 个 结构 完全 
相同 的 逻辑 表 所 封装 。 可 以 简单 地 把 这 个 表 当 作 一 个 “ 老 的 、 早 期 的 、 
功能 有 限 的 ”的 分 区 表 ， 因 为 它 自身 的 特性 ， 甚 至 可 以 提供 一 些 分 区 表 
没有 的 功能 人 )。 


合并 表 相 当 于 一 个 容器 ， 里 面包 含 了 多 个 真实 表 。 可 以 在 
CREATE TABLE 中 使 用 一 种 特别 的 UNION 语 法 来 指定 包含 哪些 真实 
表 。 下 面 是 一 个 创建 合并 表 的 例子 : 


mysql> CREATE TABLE t1(a INT NOT NULL PRIMARY KEY)ENGINE=MyISAM; 
mysql> CREATE TABLE t2(a INT NOT NULL PRIMARY KEY)ENGINE=MyISAM; 
mysql> INSERT INTO t1(a) VALUES(1),(2); 
mysql> INSERT INTO t2(a) VALUES(1),(2); 
mysql> CREATE TABLE mrg(a INT NOT NULL PRIMARY KEY) 

-> ENGINE=MERGE UNION=(t1, t2) INSERT METHOD=LAST; 
mysql> SELECT a FROM mrg; 


+------+ 


注意 到 ， 这 里 最 后 建立 的 合并 表 和 前 面 的 各 个 真实 表 字段 完全 相 
同 ， 在 合并 表 中 有 的 索引 各 个 真实 子 表 也 有 ， 这 是 创建 合并 表 的 前 提 
条 件 。 另 外 还 注意 到 ， 各 个 子 表 在 对 应 列 上 都 有 主键 限制 ， 但 是 最 终 
的 合并 表 中 仍然 出 现 了 重复 值 ， 这 是 合并 表 的 另 一 个 不 足 : 合并 表 中 
的 每 一 个 子 表 行 为 和 表 定 义 都 是 相同 ， 但 是 合并 表 在 全 局 上 并 不 受 这 
些 条 件 限制 。 


这 里 的 语法 INSERT_METHOD=LAST 告 诉 MySQL ， 将 所 有 的 
INSERT 语 句 都 发 送 给 最 后 一 个 表 。 指 定 FIRST 或 者 LAST 关 键 字 是 
一 可 以 控制 行 插入 到 合并 表 的 哪 一 个 子 表 的 方式 (当然 ， 还 是 可 以 直 
接 在 SQL 中 明确 地 操作 任何 一 个 子 表 ) 。 而 分 区 表 则 有 更 多 的 方式 可 
以 控制 数据 写 入 到 哪 一 个 子 表 中 。 


INSERT 语 句 的 执行 结果 可 以 在 最 终 的 合并 表 中 看 到 ， 也 可 以 在 对 
应 的 子 表 中 看 到 : 


mysql> INSERT INTO mrg(a) VALUES(3); 
mysql> SELECT a FROM t2; 


| a | 


合并 表 还 有 些 有 趣 的 限制 和 特性 ， 例 如 ， 在 删除 合并 表 或 者 删除 
一 个 子 表 的 时 候 会 怎样 ? 删除 一 个 合并 表 ， 它 的 子 表 不 会 受 任何 影 
响 ， 而 如 果 直 接 删 除 其 中 一 个 子 表 则 可 能 会 有 不 同 的 后 果 ， 这 要 视 操 
作 系 统 而 定 。 例 如 在 GNU/Linux 上 ， 如 果子 表 的 文件 描述 还 是 被 打开 
的 状态 ， 那 么 这 个 表 还 存在 ， 但 是 只 能 通过 合并 表 才 能 访问 到 : 


mysql> DROP TABLE t1, t2; 
mysql> SELECT a FROM mrg; 
+------+ 


+------+ 


+------+ 


合并 表 还 有 很 多 其 他 的 限制 和 行为 ， 下 面 列 举 的 这 几 点 需要 在 使 
用 的 时 候 时 刻 记 住 。 


。 在 使 用 CREATE 语 句 创建 一 个 合并 表 的 时 候 ， 并 不 会 检查 各 个 子 
表 的 兼容 性 。 如 果子 表 的 定义 稍 有 不 同 ， 那 么 MySQL 就 可 能 创建 
出 一 个 后 面 无 法 使 用 的 合并 表 。 另 外 ， 如 果 在 成 功 创建 了 合并 表 
后 再 修改 某 个 子 表 的 定义 ， 那 么 之 后 再 使 用 合并 表 可 能 会 看 到 这 
样 的 报错 : ERROR 1168 (HY000):Unable to open underlying table 
which is differently defined or of non-MyISAM type or doesn't existo 
根据 合并 表 的 特性 ， 不 难 发 现 ， 在 合并 表 上 无 法 使 用 REPLACE 语 
法 ， 无 法 使 用 自 增 字 段 。 更 多 的 细节 请 参阅 MySQL 官 方 手册 。 

如 果 一 个 查询 访问 合并 表 ， 那 么 它 需 要 访问 所 有 子 表 。 这 会 让 根 
据 键 查找 单行 的 查 y 询 速度 变 慢 ， 如 果 能 够 只 访问 一 个 对 应 表 ， 速 
度 肯定 将 更 快 。 所 以 ， 限 制 全 并 表 中 的 子 表 数量 很 重要 ， 特 别 是 
当 合 并 表 是 某 个 天 联 查 询 的 一 部 分 的 时 候 ， 因 为 这 时 访问 一 个 表 
的 记录 数 可 能 会 将 比较 操作 传递 到 关联 的 其 他 表 中 ， 这 时 减少 记 


录 的 访问 融 是 减少 整个 天 联 操作 。 当 你 打算 使 用 合并 表 的 时 候 ， 
Wee ict BLA: 


执行 范围 查询 时 ， 需 要 在 每 一 个 子 表 上 各 执行 一 次 ， 这 上 比 直 接 访 
问 单个 表 的 性 一 能 要 差 很 多 ， 而 且 子 表 越 多 ， 性 能 越 糟 。 

全 表 扫 描 和 普通 表 的 全 表 扫 描 速 度 相 同 。 

在 合并 表 上 做 唯一 键 和 主键 查询 时 ， 一 旦 找到 一 行 数据 就 会 停 
止 。 所 以 一 旦 查 一 询 在 合并 表 的 某 一 个 子 表 中 找到 一 行 数据 ， 就 
会 立刻 返回 ， 不 会 再 访问 任何 其 他 的 表 。 

子 表 的 读 取 顺 序 和 CREATE TABLE 语 句 中 的 顺序 相同 。 如 果 需 要 
频繁 地 按照 某 个 特定 顺序 访问 表 ， 那 么 可 以 通过 这 个 特性 来 让 合 
并 排序 操作 更 高 效 。 


因为 合并 表 的 各 个 子 表 可 以 直接 被 访问 ， 所 以 它 还 具有 一 些 


MySQL 5.5 分 区 所 不 能 提供 的 特性 : 


一 个 MyISAM 表 可 以 是 多 个 合并 表 的 子 表 。 

可 以 通过 直接 复制 y.frm、.MYI、.MYD 文 件 ， 来 实现 在 不 同 的 服务 
器 之 间 复 制 各 个 子 表 。 

在 合并 表 中 可 以 很 容易 地 添加 新 的 子 表 : 直接 修改 合并 表 的 定义 
就 可 以 了 。 

可 以 创建 一 个 合并 表 ， 让 它 只 包含 需要 的 数据 ， 例 如 只 包含 某 个 
时 间 段 的 数据 ， 而 在 分 区 表 中 是 做 不 到 这 一 点 的 。 

如 果 想 对 某 个 子 表 做 备份 、 恢 复 、 人 修改、 修复 或 者 别 的 操作 时 ， 
可 以 先 将 其 从 合并 表 中 删除 ， 操 作 结束 后 再 将 其 加 回去 。 

可 以 使 用 myisampack 来 讨 缩 所 有 的 子 表 。 


相反 ， 分 区 表 的 子 表 都 是 被 MySQL 隐 藏 的 ， 只 能 通过 分 区 表 去 访 
AFR. 


7.2 ”视图 


MySQL 5.0 版 本 之 后 开始 引入 视图 。 视 图 本 身 是 一 个 虚拟 表 ， 不 
存放 任何 数据 。 在 使 用 SQL 语句 访问 视图 的 时 候 ， 它 返回 的 数据 是 
MySQL 从 其 他 表 中 生成 的 。 视 图 和 表 是 在 同一 个 命名 空间 ，MySQL 
在 很 多 地 方 对 于 视图 和 表 是 同样 对 待 的 。 不 过 视图 和 表 也 有 不 同 ， 例 
如 ， 不 能 对 视图 创建 触发 器 ， 也 不 能 使 用 DROP TABLE 命 令 删除 视 
Elo 


在 MySQL 官 方 手册 中 对 如 何 创 建 和 使 用 视图 有 详细 的 介绍 ， 本 书 
不 会 详细 介绍 这 些 。 我 们 将 主要 介绍 视图 是 如 何 实现 的 ， 以 及 优化 器 
如 何 处 理 视 图 ， 通 过 了 解 这 些 ， 希 望 可 以 让 大 家 在 使 用 视图 时 获得 更 
高 的 性 能 。 我 们 将 使 用 示例 数据 库 world 来 演示 视图 是 如 何 工作 的 : 


mysql> CREATE VIEW Oceania AS 
-> SELECT * FROM Country WHERE Continent = 'Oceania' 


-> WITH CHECK OPTION; 


实现 视图 最 简单 的 方法 是 将 SELECT 语句 的 结果 存放 到 临时 表 
中 。 当 需要 访问 视图 的 时 候 ， 直 接 访 问 这 个 临时 表 就 可 以 了 。 我 们 先 
来 看 看 下 面 的 查询 : 


mysql> SELECT Code, Name FROM Oceania WHERE Name = 


"Australia'; 


下 面 是 使 用 临时 表 来 模拟 视图 的 方法 。 这 里 临时 表 的 名 字 是 为 演 
示 用 的 : 


mysql> CREATE TEMPORARY TABLE TMP_Oceania_123 AS 
-> SELECT * FROM Country WHERE Continent = 'Oceania'; 
mysql> SELECT Code, Name FROM TMP_Oceania_123 WHERE Name = 


"Australia'; 


这 样 做 会 有 明显 的 性 能 问题 ， 优 化 器 也 很 难 优化 在 这 个 临时 表 上 
的 查询 。 实现 视图 更 好 的 方法 是 ， 重 写 含 有 视图 的 查询 ， 将 视图 的 定 
义 SQL 直 接 包含 进 查 询 的 SQL 中 。 下 面 的 例子 展示 的 是 将 视图 定义 的 
SQL 合并 进 碍 询 SQL 后 的 样子 : 


mysql> SELECT Code, Name FROM Country 


-> WHERE Continent = 'Oceania' AND Name = ‘'Australia'; 


MySQL 可 以 使 用 这 两 种 办 法 中 的 任何 一 种 来 处 理 视图 。 这 两 种 算 
ne (MERGE) 和 临时 表 算 法 (TEMPTABLE) “, 
如 果 可 能 ， 会 尽 可 能 地 使 用 合并 算法 。MySQL 甚 至 可 以 网 套 地 定义 视 
， 也 就 是 在 一 Ge 个 视图 。 可 以 在 EXPLAIN 
EXTENDED 之 后 使 用 SHOW WARNINGS 来 查看 使 用 视图 的 查询 重 写 
后 的 结果 。 


如 果 是 采用 临时 表 算 法 实现 的 视图 ，EXPLAIN 中 会 显示 为 派生 表 
(DERIVED) 。 图 7-1 展 示 了 这 两 种 实现 的 细节 。 


服务 器 将 视图 
E a Go 
进行 合并 
服务 器 基于 
i 
执行 查询 


服务 器 


图 7-1: 视图 的 两 种 实现 


如 果 视 图 中 包含 GROUY BY, DISTINCT, 0R 8AM, 
UNION、 子 查询 等 ， 只 要 无 法 在 原 表 记录 和 视图 记录 中 建立 一 一 映射 
的 场景 中 ，MySQL 都 将 使 用 临时 表 算 法 来 实现 视图 。 上 面 列举 的 可 能 
不 全 ， 而 且 这 些 规则 在 未 来 的 版 本 中 也 可 能 会 改变 。 如 果 你 想 确 定 
MySQL 到 底 是 使 用 合并 算法 还 是 临时 表 算 法 ， ST LLEXPLAIN—# 4+ 
对 视图 的 简单 查询 : 


mysg? EXPLAIN Sel * FROM <view_name>; 


|a | PRIMARY | 
| 2 | DERIVED | 
+----+------------- + 


这 里 的 select_ type 为 "DERIVED”， 说 明 该 视图 是 采用 临时 表 算 法 
实现 的 。 不 过 要 注意 : 如 果 产 生 的 底层 派生 表 很 大 ， 那 么 执行 
EXPLAIN 可 能 会 非常 慢 。 因 为 在 MySQL 5.5 和 更 老 的 版 本 中 ， 
EXPLAIN 是 需要 实际 执行 并 产生 该 派生 表 的 。 


视图 的 实现 算法 是 视图 本 身 的 属性 ， 和 作用 在 视图 上 的 查询 语句 
无 天 。 例 如 ， 可 以 为 一 个 基于 简单 查询 的 视图 指定 使 用 临时 表 算 法 : 


CREATE ALGORITHM=TEMPTABLE VIEW vi AS SELECT * FROM 


sakila.actor; 


实现 该 视图 的 SQL 本 身 并 不 需要 临时 表 ， 但 基于 该 视图 无 论 执 行 
什么 样 的 查询 ， 视 图 都 会 生成 一 个 临时 表 。 


7.2.1 可 更 新 视图 


可 更 新 视图 (updatable view) 是 指 可 以 通过 更 新 这 个 视图 来 更 新 
视图 涉及 的 相关 表 。 只 要 指定 了 合适 的 条 件 ， 就 可 以 更 新 、 删 除 甚 至 
向 视图 中 写 入 数据 。 例 如 ， 下 面 就 是 一 个 合理 的 操作 : 


mysql> UPDATE Oceania SET Population = Population * 1.1 


WHERE Name = 'Australia'; 


如 果 视 图 定义 中 包含 了 GROUP BY, UNION, BARR, WR 
他 一 些 特殊 情况 ， 就 不 能 被 更 新 了 。 更 新 视图 的 查询 也 可 以 是 一 个 关 


联 语句 ， 但 是 有 一 个 限制 ， 被 更 新 的 列 必 须 来 目 同一 个 表 中 。 另 外 ， 
所 有 使 用 临时 表 算 法 实现 的 视图 都 无 法 被 更 新 。 


在 上 一 节 定 义 视图 时 使 用 的 CHECK OPTION 子 句 ， 表 示 任 何 通 过 
视图 更 新 的 行 ， 都 必须 符合 视图 本 身 的 WHERE 条 件 定 义 。 所 以 不 能 
更 新 视图 定义 列 以 外 的 列 ， 比 如 上 例 中 不 能 更 新 Continent 列 ， 也 不 能 
插入 不 同 Continent 值 的 新 数据 ， 否 则 MySQL 会 报 如 下 的 错误 : 


mysql> UPDATE Oceania SET Continent = 'Atlantis'; 


ERROR 1369 (HY000): CHECK OPTION failed 'world.Oceania' 


某 些 关 系数 据 库 允许 在 视图 上 建立 INSTEAD OF 触发 器 ， 通 过 触 
发 器 可 以 精确 控制 在 修改 视图 数据 时 做 些 什么 。 不 过 MySQL 不 支持 在 
视图 上 建 任 何 触发 器 。 


7.2.2 ”视图 对 性 能 的 影响 


多 数 人 认为 视图 不 能 提升 性 能 ， 实 际 上 ， 在 MySQL 中 某 些 情况 下 
视图 也 可 以 帮助 提升 性 能 。 而 且 视 图 还 可 以 和 其 他 提升 性 能 的 方式 苇 
加 使 用 。 例 如 ， 在 重 构 schema 的 时 候 可 以 使 用 视图 ， 使 得 在 修改 视图 
底层 表 结 构 的 时 候 ， 应 用 代码 还 可 能 继续 不 报错 的 运行 。 


可 以 使 用 视图 实现 基于 列 的 权限 控制 ， 却 不 需要 真正 的 在 系统 中 
创建 列 权 限 ， 因 此 没有 额外 的 开销 。 


CREATE VIEW public.employeeinfo AS 


SELECT firstname, lastname -- but not 
socialsecuritynumber 
FROM private.employeeinfo; 


GRANT SELECT ON public.* TO public_user; 


有 时 候 也 可 以 使 用 伪 临 时 视图 实现 一 些 功 能 。MySQL 虽 然 不 能 创 
建 只 在 当前 连接 中 存在 的 真正 的 临时 视图 ， 但 是 可 以 建 一 个 特殊 名 字 
的 视图 ， 然 后 在 连接 结束 的 时 候 删除 该 视图 。 这 样 在 连接 过 程 中 就 可 
以 在 FROM 子 句 中 使 用 这 个 视图 ， 和 使 用 子 查 询 的 方式 完全 相同 ， 因 
为 MySQL 在 处 理 视图 和 处 理子 查询 的 代码 路 径 完全 不 同 ， 所 以 它们 的 
性 能 也 不 同 。 下 面 是 一 个 例子 : 


-- Assuming 1234 is the result of CONNECTION_ID() 
CREATE VIEW temp.cost_per_day_1234 AS 
SELECT DATE(ts) AS day, sum(cost) AS cost 
FROM logs.cost 
GROUP BY day; 
SELECT c.day, c.cost, s.sales 
FROM temp.cost_per_day_1234 AS c 
INNER JOIN sales.sales_per_day AS s USING(day); 


DROP VIEW temp.cost_per_day_1234; 


我 们 这 里 使 用 连接 ID 作为 视图 名 字 的 一 部 分 来 避免 冲突 。 在 应 用 
发 生 骨 溃 和 别 的 意外 导致 未 清理 临时 视图 的 时 候 ， 这 个 技巧 使 得 清理 
临时 视图 变 得 很 简单 。 详 细 的 信息 可 以 参考 后 面 的 “丢失 的 临时 表 ”。 


使 用 临时 表 算 法 实现 的 视图 ， 在 某 些 时 候 性 能 会 很 糟糕 (里 然 可 
能 比 直 接 使 用 等 效 查询 语句 要 好 一 点 ) 。MySQL 以 递归 的 方式 执行 这 
类 视图 ， 先 会 执行 外 层 查 询 ， 即 使 外 层 查 询 优 化 器 将 其 优化 得 很 好 ， 
但 是 MySQL 优 化 器 可 能 无 法 像 其 他 的 数据 库 那 样 做 更 多 的 内 外 结合 的 
优化 。 外 层 查 询 的 WHERE 条 件 无 法 “下 推 ”到 构建 视图 的 临时 表 的 查询 
中 ， 临 时 表 也 无 法 建立 索引 中 。 下 面 是 一 个 例子 ， 还 是 基于 
temp.cost_per_day_1234 这 个 视图 : 


mysql> SELECT c.day, c.cost, s.sales 
-> FROM temp.cost_per_day_1234 AS c 
-> INNER JOIN sales.sales_per_day AS s USING(day) 


-> WHERE day BETWEEN '2007-01-01' AND '2007-01-31'; 


在 这 个 查询 中 ，MySQL 先 执行 视图 的 SQL 生成 临时 表 ， 然 后 再 将 
sales_per_day 和 临时 表 进 行 关联 。 这 里 的 WHERE 子 句 中 的 BETWEEN 
条 件 并 不 能 下 推 到 视图 当中 ， 所 以 视图 在 创建 的 时 候 仍 然 需 要 将 所 有 
的 数据 都 放 到 临时 表 当 中 ， 而 不 仅 仪 是 一 个 月 的 数据 。 而 且 临 时 表 中 
不 会 有 索引 。 这 个 案例 中 ， 索 引 还 不 是 问题 : MySQL 将 临时 表 作 为 天 
联 顺 序 中 的 第 一 个 表 ， 因 此 这 里 可 以 使 用 sales_per_day 中 的 索引 。 不 
过 ， 如 果 是 对 两 个 视图 做 关联 的 话 ， 优 化 器 就 没有 任何 索引 可 以 使 用 
To 


视图 还 引入 了 一 些 并 非 MySQL 特 有 的 其 他 问题 。 很 多 开发 者 以 为 
视图 很 简单 ， 但 实际 上 其 背后 的 逻辑 可 能 非常 复杂 。 开 发 人 员 如 果 没 
有 意识 到 视图 背后 的 复杂 性 ， 很 可 能 会 以 为 是 在 不 停 地 重复 查询 一 张 
简单 的 表 ， 而 没有 意识 到 实际 上 是 代价 高 昂 的 视图 。 我 们 见 过 不 少 案 


例 ， 一 条 看 起 来 很 简单 的 查询 ，EXPLAIN 出 来 却 有 几 百 行 ， 因 为 其 中 
一 个 或 者 多 个 表 ， 实 际 上 是 引用 了 很 多 其 他 表 的 视图 。 


如 果 打 算 使 用 视图 来 近 升 性 能 ， 需 要 做 比较 详细 的 测试 。 即 使 是 
合并 算法 实现 的 视图 也 会 有 额外 的 开销 ， 而 且 视 图 的 性 能 很 难 预 测 。 
在 MySQL 优 化 器 中 ， 视 图 的 代码 执行 路 径 也 完全 不 同 ， 这 部 分 代码 测 
试 还 不 够 全 面 ， 可 能 会 有 一 些 隐藏 缺陷 和 问题 。 所 以 ， 我 们 认为 视图 
还 不 是 那么 成 熟 。 例 如 ， 我 们 看 到 过 这 样 的 案例 ， 复 杂 的 视图 和 高 并 
ee 执行 计划 生成 和 统计 数据 阶 
Fr, 这 On ne eee 
enamel 这 法 实现 的 
一 一 并 不 总 是 有 很 优化 的 实现 。 


7.2.3 ”视图 的 限制 


在 其 他 的 关系 数据 库 中 你 可 能 使 用 过 物化 视图 ，MySQL 还 不 支持 
物化 视图 (物化 视图 是 指 将 视图 结果 数据 存放 在 一 个 可 以 查看 的 表 
中 ， 并 定期 从 原始 表 中 刷新 数据 到 这 个 表 中 ) 。MySQL 也 不 支持 在 视 
图 中 创建 索引 。 不 过 ， 可 以 使 用 构建 缓存 表 或 者 汇总 表 的 办 法 来 模拟 
物化 视图 和 索引 。 可 以 直接 使 用 Justin Swanhart's 的 工具 Flexviews 来 实 
现 这 个 目的 。 参 考 第 4 章 可 以 获得 更 多 的 相关 细节 。 


MySQL 视 图 实现 上 也 有 一 些 让 人 烦恼 的 地 方 。 例 如 ，MySQL 并 
会 保存 视图 定义 的 原始 SQL 语句 ， 所 以 如 果 打 算 通 过 执行 SHOW 
CREATE VIEW 后 再 简单 地 修改 其 结果 的 方式 来 重新 定义 视图 ， 可 能 
会 大 失 所 望 。SHOW CREATE VIEW 出 来 的 视图 创建 语句 将 以 一 种 不 


友好 的 内 部 格式 呈现 ， 充 满 了 各 种 转 义 符 和 引号 ， 没 有 代码 格式 化 ， 
没有 注释 ， 也 没有 缩 进 。 


如 果 打 算 重 新 修改 一 个 视图 ， 并 且 没 法 找到 视图 的 原始 的 创建 语 
句 的 话 ， 可 以 通过 使 用 视图 的 .frm 文 件 的 最 后 一 行 获得 一 些 信息 。 如 
果 有 有 FILE 权限， 甚至 可 以 直接 使 用 SQL 语句 中 的 LOAD _ 
ee 再 加 上 一 些 字符 处 理工 作 ， 就 可 以 获得 

完整 的 视图 创建 语 名 了， 感谢 Roland Bouman 创 造 性 的 实现 : 


mysql> SELECT 
-> ete eas 

-> REPLACE (REPLACE (REPLACE(REPLACE(REP 
-> SUBSTRING NDEXKLORD | FILE(' frar/Libfaysd oriita fim'), 
->  '\nsource= -1), 
=> Np AS NE Sa AN NA a NZa het We" NE" )5 
> Ns Hr!) "Wn", "\n"), "Wo" "Vb", AD) WSN"), 
-> '\\o, W É. 


+------------------------------------------------------------------------- 


+-------------------------------------------------------------------------+ 
| SELECT * FROM Country WHERE continent = "Oceania' 
WITH CHECK OPTION 


-+ 


7.3 ”外 键 约束 


InnoDB 是 目前 MySQL 中 唯一 支持 外 键 的 内 置 存 储 引 和 擎 ， 所 以 如 果 
需要 外 键 支持 那 选择 就 不 多 了 (PBXT 也 有 外 键 支持 ) o 


使 用 外 键 是 有 成 本 的 。 比 如 外 键 通常 都 要 求 每 次 在 修改 数据 时 都 
要 在 另外 一 张 表 中 多 执行 一 次 查找 操作 。 虽 然 ImnoDB 强 制 外 键 使 用 索 
引 ， 但 还 是 无 法 消除 这 种 约束 检查 的 开销 。 如 果 外 键 列 的 选择 性 很 
低 ， 则 会 导致 一 个 非常 大 且 选 择 性 很 低 的 索引 。 例 如 ， 在 一 个 非常 大 
的 表 上 有 status 列 ， 并 希望 限制 这 个 状态 列 的 取 值 ， 如 果 该 列 只 能 取 三 


个 值 一 一 虽然 这 个 列 本 身 很 小 ， 但 是 如 果 主 键 很 大 ， 那 么 这 个 索引 就 
会 很 大 一 一 而 且 这 个 索引 除了 做 这 个 外 键 限 制 ， 也 没有 任何 其 他 的 作 
用 了 。 


不 过 ， 在 某 举 场景 下 ， 外 键 会 提升 一 些 性 能 。 如 果 想 确保 两 个 相 
关 表 始终 有 一 致 的 数据 ， 那 么 使 用 外 键 比 在 应 用 程序 中 检查 一 致 性 的 
性 能 要 高 得 多 ， 此 外 ， 外 键 在 相关 数据 的 删除 和 更 新 上 ， 也 比 在 应 用 
中 维护 要 更 高 效 ， 不 过 ， 外 键 维 护 操 作 是 逐 行进 行 的 ， 所 以 这 样 的 更 
新 会 比 批量 删除 和 更 新 要 慢 些 。 


外 键 约束 使 得 查询 需要 额外 访问 一 些 别 的 表 ， 这 也 意味 着 需要 额 
外 的 锁 。 如 果 向 子 表 中 写 入 一 条 记录 ， 外 键 约束 会 让 InnoDB 检 查 对 应 
的 父 表 的 记录 ， 也 就 需要 对 父 表 对 应 记录 进行 加 锁 操作 ， 来 确保 这 条 
记录 不 会 在 这 个 事务 完成 之 时 就 被 删除 了 。 这 会 导致 额外 的 锁 等 待 ， 
甚至 会 导致 一 些 死 锁 。 因 为 没有 直接 访问 这 些 表 ， 所 以 这 类 和 死 锁 问题 
往往 难以 排查 。 


有 时 ， 可 以 使 用 触发 器 来 代替 外 键 。 对 于 相关 数据 的 同时 更 新 外 
键 更 合适 ， 但 是 如 果 外 键 只 是 用 作 效 值 约束 ， 那 么 触发 器 或 者 显 式 地 
限制 取 值 会 更 好 些 。 (这 里 ， 可 以 直接 使 用 ENUM 类 型 。) 


如 果 只 是 使 用 外 键 做 约束 ， 那 通常 在 应 用 程序 里 实现 该 约束 会 更 
好 。 外 键 会 遍 来 很 大 的 额外 消耗 。 这 里 没有 相关 的 基准 测试 的 数据 ， 
不 过 我 们 碰 到 过 很 多 案例 ， 在 对 性 能 进行 训 析 时 发 现 外 键 约束 就 是 瓶 
颈 所 在 ， 删 除外 键 后 性 能 立即 大 幅 提升 。 


7.4 在 MySQL 内 部 存储 代码 


MySQL 人 允许 通过 触发 器 、 存 储 过 程 、 函 0 从 
MySQL 5.1 开 始 ， 还 可 以 在 定时 任务 中 存放 代码 ， 这 个 定时 任务 也 被 
称 为 “事件 ”。 存 储 过 程 和 存储 函数 都 被 统称 为 : ane o 


这 四 种 存储 代码 都 使 用 特殊 的 SQL 语句 扩展 ， 它 包含 了 很 多 过 程 
处 理 语 法 ， 例 如 循环 和 条 件 分 支 等 99。 不 同类 型 的 存储 代码 的 主要 区 
别 在 于 其 执行 的 上 下 文 一 一 也 就 是 其 输入 和 输出 。 存 储 过 程 和 存储 汤 
数 都 可 以 接收 参数 然后 返回 值 ， 但 是 触发 器 和 事件 却 不 行 。 


一 般 来 说 ， 存 储 代 码 是 一 种 很 好 的 共享 和 复 用 代码 的 方法 。 
Giuseppe Maxia 和 其 他 一 些 人 也 建立 了 一 些 通用 的 存储 过 程 库 ， 在 网 
站 http://mysql-sr-lib.sourceforge.net 可 以 找到 。 不 过 因为 不 同 的 天 系数 
据 库 都 有 各 自 的 语法 规则 ， 所 以 不 同 的 数据 库 很 难 复 用 这 些 存储 代码 

(DB2 是 一 个 例外 ， 它 和 MySQL 基 于 相同 的 标准 ， 有 着 非常 类 似 的 语 
法 ) (2。 


这 里 将 主要 关注 存储 代码 的 性 能 ， 而 不 是 如 何 实现 。 如 果 你 打算 
学 习 如 何 编写 存储 过 程 ， 那 么 Guy Harrison 和 Steven Feuerstein 编 写 的 
MySQL Stored Procedure Programming (O'Reilly) 应 该 会 有 帮助 。 


有 人 倡导 使 用 存储 代码 ， 也 有 人 反对 。 这 里 我 们 不 站 在 任何 一 
边 ， 只 是 列举 一 下 在 MySQL 中 使 用 存储 代码 的 优点 和 缺点 。 首 先 ， 它 
AY Pir: 


它 在 服务 器 内 部 执行 ， 离 数据 最 近 ， 另 外 在 服务 器 上 执行 还 可 以 
节省 市 宽 和 网 络 延 迟 。 

这 是 一 种 代码 重用 。 可 以 方便 地 统一 业务 规则 ， 保 证 某 些 行为 总 
是 一 致 ， 所 以 也 可 以 为 应 用 提供 一 定 的 安全 性 。 


它 可 以 简化 代码 的 维护 和 版 本 更 新 。 

它 可 以 帮助 提升 安全 ， 比 如 提供 更 细 粒 度 的 权限 控制 。 一 个 常见 
的 例子 是 银行 用 于 转移 资金 的 存储 过 程 : 这 个 存储 过 程 可 以 在 一 
个 事务 中 完成 资金 转移 和 记录 用 于 审计 的 日 志 。 应 用 程序 也 可 以 
通过 存储 过 程 的 接口 访问 那些 没有 权限 的 表 。 

服务 器 端 可 以 缓存 存储 过 程 的 执行 计划 ， 这 对 于 需要 反复 调用 的 
过 程 ， 会 大 大 降低 消耗 。 

因为 是 在 服务 器 端 部 署 的 ， 所 以 备份 、 维 护 都 可 以 在 服务 器 端 完 
成 。 所 以 存储 程序 的 维护 工作 会 很 简单 。 它 没什么 外 部 依赖 ， 例 
如 ， 不 依赖 任何 Perl 包 和 其 他 不 想 在 服务 器 上 部 署 的 外 部 软件 。 
它 可 以 在 应 用 开发 和 数据 库 开 发 人 员 之 间 更 好 地 分 工 。 不 过 最 好 
是 由 数据 库 专家 来 开发 存储 过 程 ， 因 为 不 是 每 个 应 用 开发 人 员 都 
能 写 出 高 效 的 SQL 查 询 。 


存储 代码 也 有 如 下 缺点 : 


MySQL 本 身 没 有 提供 好 用 的 开发 和 调试 工具 ， 所 以 编写 MySQL 
的 存储 代码 比 其 他 的 数据 库 要 更 难 些 。 

较 之 应 用 程序 的 代码 ， 存 储 代码 效率 要 稍微 差 些 。 例 如 ， 存 储 代 
码 中 可 以 使 用 的 函数 非常 有 限 ， 所 以 使 用 存储 代码 很 难 编写 复杂 
的 字符 串 维护 功能 ， 也 很 难 实 现 太 复杂 的 逻辑 。 

存储 代码 可 能 会 给 应 用 程序 代码 的 部 署 带 来 额外 的 复杂 性 。 原 本 
只 需要 部 署 应 用 代码 和 库 表 结构 变更 ， 现 在 还 需要 额外 地 部 署 
MySQL 内 部 的 存储 代码 。 

因为 存储 程序 都 部 署 在 服务 器 内 ， 所 以 可 能 有 安全 隐患 。 如 果 将 
非 标 准 的 加 密 功能 放 在 存储 程序 中 ， 那 么 若 数据 库 被 攻破 ， 数 据 


也 就 泄漏 了 。 但 是 若 将 加 密 函 数 放 在 应 用 程序 代码 中 ， 那 么 攻击 
者 必须 同时 攻破 程序 和 数据 库 才 能 获得 数据 。 

存储 过 程 会 给 数据 库 服务 器 增加 额外 的 压力 ， 而 数据 库 服务 器 的 
扩展 性 相 比 应 用 服务 器 要 差 很 多 。 

MySQL 并 没有 什么 选项 可 以 控制 存储 程序 的 资源 消耗 ， 所 以 在 存 
储 过 程 中 的 一 个 小 错误 ， 可 能 直接 把 服务 器 拖 死 。 

存储 代码 在 MySQL 中 的 实现 也 有 很 多 限制 一 执行 计划 缓存 是 连 
接 级 别 的 ， 游 标的 物化 和 临时 表 相 同 ， 在 MySQL 5.5 版 本 之 前 ， 
异常 处 理 也 非常 困难 ， 等 等 。 (我 们 会 在 介绍 它 的 各 个 特性 的 同 
时 介绍 相关 的 限制 ) 。 简 而 言 之 ， 较 之 工 SQL 或 者 PL/SQL ， 
MySQL 的 存储 代码 功能 还 非常 非常 弱 。 

调试 MySQL 的 存储 过 程 是 一 件 很 困难 的 事情 。 如 果 慢 日 志 只 是 给 
出 CALL XYZ(A')， 通 常 很 难 定位 到 底 是 什么 导致 的 问题 ， 这 时 
不 得 不 看 看 存储 过 程 中 的 SQL 语句 是 如 何 编写 的 。 (这 在 Percona 
Server 中 可 以 通过 参数 控制 。 ) 

它 和 基于 语句 的 二 进 制 日 志 复 制 合 作 得 并 不 好 。 在 基于 语句 的 复 
制 中 ， 使 用 存储 代码 通常 有 很 多 的 陷阱 ， 除 非 你 在 这 方面 的 经 验 
非常 丰富 或 者 非常 有 耐心 排查 这 类 问题 ， 否 则 需要 谨慎 使 用 。 


这 个 缺陷 列表 很 长 一 一 那么 在 真实 世界 中 ， 这 意味 着 什么 ? 我 们 
来 看 一 个 真实 世界 中 弄巧成拙 的 案例 : 在 一 个 实例 中 ,创建 了 一 个 存 
储 过 程 来 给 应 用 程序 访问 数据 库 中 的 数据 ， 这 使 得 所 有 的 数据 访问 都 
需要 通过 这 个 接口 ， 甚 至 很 多 根据 主键 的 查询 也 是 如 此 ， 这 大 概 使 系 
统 的 性 能 降低 了 五 倍 左右 。 


最 后 ， 和 存储 代码 是 一 种 帮助 应 用 隐藏 复杂 性 ， 使 得 应 用 开发 更 简 
单 的 方法 。 不 过 ， 它 的 性 能 可 能 更 低 ， 而 且 会 给 MySQL 的 复制 等 增加 


潜在 的 风险 。 所 以 当 你 打算 使 用 存储 过 程 的 时 候 ， 需 要 问 问 自己 ， 到 
底 希 望 程序 逻辑 在 哪儿 实现 : 是 数据 库 中 还 是 应 用 代码 中 ? 这 两 种 做 
法 都 可 以 ， 也 都 很 流行 。 只 是 当 你 编写 存储 代码 的 时 候 ， 你 需要 明白 
这 是 将 程序 逻辑 放 在 数据 库 中 。 


7.4.1 ”存储 过 程 和 函数 


MySQL 的 架构 本 身 和 优化 器 的 特性 使 得 存储 代码 有 一 些 天 然 的 限 
它 的 性 能 也 一 定 程度 受 限 于 此 。 在 本 书 编写 的 时 候 ， 有 如 下 的 限 


优化 器 无 法 使 用 关键 字 DETERMINISTIC 来 优化 单个 查询 中 多 次 
调用 存储 函数 的 情况 。 

优化 器 无 法 评估 存储 函数 的 执行 成 本 。 

每 个 连接 都 有 独立 的 存储 过 程 的 执行 计划 缓存 。 如 果 有 多 个 连接 
需要 调用 同一 个 存储 过 程 ， 将 会 浪费 缓存 空间 来 反复 缓存 同样 的 
执行 计划 。 (如 果 使 用 的 是 连接 池 或 者 是 持久 化 连接 ， 那 么 执行 
计划 缓存 可 能 会 有 更 长 的 生命 周期 。) 

存储 程序 和 复制 是 一 组 诡异 组 合 。 如 果 可 以 ， 最 好 不 要 复制 对 存 
储 程 序 的 调用 。 直 接 复 制 由 存储 程序 改变 的 数据 则 会 更 好 。 
MySQL 5.1 引 入 的 行 复制 能 够 改善 这 个 问题 。 如 果 在 MySQL 5.0 
中 开启 了 二 进 制 日 志 ， 那 么 要 么 在 所 有 的 存储 过 程 中 都 增加 
DETERMINISTIC 限制 或 者 设置 MySQL 的 选项 


log_bin_trust_function_creatorso 


我 们 通 单 会 希望 存储 程序 越 小 、 越 简单 越 好 。 和 希望 将 更 加 复杂 的 


处 理 逻 辑 交 给 上 层 的 应 用 实现 ， 通 单 这 样 会 使 代码 更 易 读 、 易 维护 ， 


也 会 更 灵活 。 这 样 做 也 会 让 你 拥有 更 多 的 计算 资源 ， 潜 在 的 还 会 让 你 
拥有 更 多 的 缓存 资源 3。 


不 过 ， 对 于 某 些 操作 ， 和 存储 过 程 比 其 他 的 实现 要 快 得 多 一 一 特别 
是 当 一 个 人 存储 过 程 调用 可 以 代 蔡 很 多 小 查询 的 时 候 。 如 果 碍 询 很 小 ， 
相 比 这 个 查询 执行 的 成 本 ， 解 析 和 网 络 开销 就 变 得 非常 明显 。 为 了 证 
明 这 一 点 ， 我 们 先 创建 一 个 简单 的 存储 过 程 ， 用 来 写 入 一 定数 量 的 数 
据 到 一 个 表 中 ， 下 面 是 存储 过 程 的 代码 : 


DROP PROCEDURE IF EXISTS insert_many_rows; 


delimiter // 


1 
2 
3 
4 
5 CREATE PROCEDURE insert_many_rows (IN loops INT) 
6 BEGIN 
7 DECLARE vi INT; 
8 SET vi=loops; 
9 WHILE vi > 0 DO 
10 INSERT INTO test_table values(NULL,O, 
11 
"qqqqqqqqqquwwwwwwwwweeeeeeceeeerrrrrrrrovotttttttttt', 
12 
"aqaqqqqqqqqwwwwwwwwwweeeeeeeeeerrrrrrrrovootttttttttt' ); 
13 SET v1 = vi - 1; 
14 END WHILE; 
15 END; 


16 // 
17 


18 delimiter ; 


然后 对 该 存储 过 程 执 行 基准 测试 ， 看 插入 一 百 万 条 记录 的 时 间 ， 
并 和 通过 客户 端 程序 逐条 插入 一 百 万 条 记录 的 时 间 进 行 对 比 。 这 里 表 
结构 和 硬件 并 不 重要 一 -重要 的 是 两 种 方式 的 相对 速度 。 另 外 ， 我 们 
还 测试 了 使 用 MySQL Proxy 连 接 MySQL 来 执行 客户 端 程序 测试 的 性 
能 。 为 了 让 事情 简单 ， 整 个 测试 在 一 台 服 务 器 上 完成 ， 包 括 客户 端 程 
序 和 MySQL Proxy 实 例 。 表 7-1 展 示 了 测试 结果 。 


表 7-1: 写 入 一 百 万 数据 所 花费 的 总 时 间 


写 入 方式 总 消耗 时 间 


可 以 看 到 存储 过 程 要 快 很 多 ， 很 大 程度 因为 它 无 须 网 络 通信 开 
销 、 解 析 开 销 和 优化 器 开销 等 。 


我 们 将 在 本 章 的 后 半 部 分 介绍 如 何 维护 存储 过 程 。 


7.4.2 ”触发 器 


触发 器 可 以 让 你 在 执行 INSERT、UPDATE 或 者 DELETE 的 时 候 ， 
执行 一 些 特定 的 操作 。 可 以 在 MySQL 中 指定 是 在 SQL 语句 执行 前 触发 
还 是 在 执行 后 触发 。 触 发 器 本 身 没 有 返回 值 ， 不 过 它们 可 以 读 取 或 者 
改变 触发 SQL 语句 所 影响 的 数据 。 所 以 ， 可 以 使 用 触发 器 实现 一 些 强 
制 限制 ， 或 者 某 些 业务 逻辑 ， 否 则 ， 就 需要 在 应 用 程序 中 实现 这 些 逻 
辑 。 


因为 使 用 触发 器 可 以 减少 客户 端 和 服务 器 之 间 的 通信 ， 所 以 触发 
器 可 以 简化 应 用 逻辑 ， 还 可 以 提高 性 能 。 另 外 ， 还 可 以 用 于 自动 更 新 
反 范 式 化 数据 或 者 汇总 表 数 据 。 例 如 ， 在 示例 数据 库 Sakila 中 ， 我 们 可 
以 使 用 触发 器 来 维护 film_text 表 。 


MySQL 触 发 器 的 实现 非常 简单 ， 所 以 功能 也 有 限 。 如 果 你 在 其 他 
数据 库 产品 中 已 经 重度 依赖 触发 器 ， 那 么 在 使 用 MySQL 的 时 候 需 要 注 
意 ， 很 多 时 候 MySQL 触 发 器 的 表现 和 预想 的 并 不 一 样 。 特 别 需要 注意 
A FJL: 


。 对 每 一 个 表 的 每 一 个 事件 ， 最 多 只 能 定义 一 个 触发 器 (RAG 
说 ， 不 能 在 AFTER INSERT 上 定义 两 个 触发 器 ) o 

MySQL 只 支持 “基于 行 的 触发 "一 一 也 就 是 说 ， 触 发 器 始终 是 针对 
一 条 记录 的 ， 而 不 是 针对 整个 SQL 语句 的 。 如 果 变 更 的 数据 集 非 
常 大 的 话 ， 效 率 会 很 低 。 


下 面 这 些 触发 器 本 身 的 限制 也 适用 于 MySQL : 


触发 器 可 以 掩盖 服务 器 背后 的 工作 ， 一 个 简单 的 SQL 语句 背后 ， 
因为 触发 器 ， 可 能 包含 了 很 多 看 不 见 的 工作 。 例 如 ， 触 发 器 可 能 


会 更 新 另 一 个 相关 表 ， 那 么 这 个 触发 器 会 让 这 条 SQL 影响 的 记录 
数 翻 一 倍 。 

触 皮 器 的 问题 也 很 难 排查 ， 如 果 肝 个 性 能 问题 和 触发 器 相关 ， 会 
很 难 分 析 和 定位 。 

触发 器 可 能 导致 死 锁 和 锁 等 待 。 如 果 触 发 器 失败 ， 那 么 原来 的 
SQL 语 句 也 会 失败 。 如 果 没 有 意识 到 这 其 中 是 触发 器 在 搞鬼 ， 那 
么 很 难 理解 服务 器 抛 出 的 错误 代码 是 什么 意思 。 


如 果 仅 考虑 性 能 ， 那 么 MySQL 触 发 器 的 实现 中 对 服务 器 限制 最 大 
的 就 是 它 的 “基于 行 的 触发 "设计 。 因 为 性 能 的 原因 ， 很 多 时 候 无 法 使 
用 触发 颖 来 维护 汇总 和 缓存 表 。 使 用 触发 器 而 不 是 批量 更 新 的 一 个 重 
要 原因 就 是 ， 使 用 触发 器 可 以 保证 数据 总 是 一 致 的 。 


触发 器 并 不 能 一 定 保证 更 新 的 原子 性 。 例 如 ， 一 个 触发 器 在 更 新 
MyISAM 表 的 时 候 ， 如 果 遇 到 什么 错误 ， 是 没有 办 法 做 回 滚 操 作 的 。 
这 时 ， 触 发 器 可 以 抛 出 错误 。 假 设 你 在 一 个 MyISAM 表 上 建立 一 个 
AFTER UPDATE 的 触发 器 ， 用 来 更 新 另 一 个 MyISAM 表 。 如 果 触 发 器 
在 更 新 第 二 个 表 的 时 候 遇 到 错误 导致 更 新 失败 ， 那 么 第 一 个 表 的 更 新 
并 不 会 回 滚 。 


在 mnoDB 表 上 的 触发 器 是 在 同一 个 事务 中 完成 的 ， 所 以 它们 执行 
的 操作 是 原子 的 ， 原 操作 和 触发 器 操作 会 同时 失败 或 者 成 功 。 不 过 ， 
如 果 在 InnoDB 表 上 建 触 发 器 去 检查 数据 的 一 致 性 ， 需 要 特别 小 心 
MVCC， 稍 不 小 心 ， 你 可 能 会 获得 错误 的 结果 。 假 设 ， 你 想 实 现 外 键 
约束 ， 但 是 不 打算 使 用 mnoDB 的 外 键 约束 。 若 打算 编写 一 个 BEFORE 
INSERT 触 发 器 来 检查 写 入 的 数据 对 应 列 在 另 一 个 表 中 是 存在 的 ， 但 若 
你 在 触发 器 中 没有 使 用 SELECT FOR UPDATE， 那 么 并 发 的 更 新 语句 
可 能 会 立刻 更 新 对 应 记录 ， 导 致 数据 不 一 致 。 我 们 不 是 危 言 答 听 ， 让 


大 家 不 要 使 用 触发 器 。 相 反 ， 触 发 器 非常 有 用 ， 尤 其 是 实现 一 些 约 
束 、 系 统 维 护 任务 ， 以 及 更 新 反 沁 式 化 数据 的 时 候 。 


还 可 以 使 用 触发 器 来 记录 数据 变更 日 志 。 这 对 实现 一 些 自 定义 的 
复制 会 非常 方便 ， 比 如 需要 先 断 开 连 接 ， 然 后 修改 数据 ， 最 后 再 将 所 
有 的 修改 重新 合并 回去 的 情况 。 一 个 简单 的 例子 是 ， 一 组 用 户 各 自在 
和 目 己 的 个 人 电脑 上 工作 ， 但 他 们 的 操作 都 需要 同步 到 一 台 主 数据 库 
上 ， 人 然后 主 数据 库 会 将 他 们 所 有 人 的 操作 都 分 发 给 每 个 人 。 实 现 这 个 
系统 需要 做 两 次 同步 操作 。 触 友 器 融 是 构建 整个 系统 的 一 个 好 办 法 。 
每 个 人 的 电脑 上 都 可 以 使 用 一 个 触发 器 来 记录 每 一 次 数据 的 修改 ， 并 
将 其 发 送 到 主 数据 库 中 。 然 后 ， 再 使 用 MySQL 的 复制 将 主 数据 库 上 的 
所 有 操作 都 复制 一 份 到 本 地 并 应 用 。 这 里 需要 额外 注意 的 是 ， 如 果 触 
发 堪 基 于 有 目 增 主键 的 记录 ， 并 且 使 用 的 是 基于 语句 的 复制 ， 那 么 目 
增长 可 能 会 在 复制 中 出 现 不 一 致 。 


有 时 候 可 以 使 用 一 些 技巧 绕 过 触发 器 是 “基于 行 的 触发 * 这 个 限 
制 。 Roland Bouman 发现 ， 对 于 BEFORE 触 发 器 除了 处 理 的 第 一 条 记 
录 ， 触 发 器 图 数 ROW_COUNT0 总 是 会 返回 1。 可 以 使 用 这 个 特点 ， 使 
得 触发 器 不 再 是 针对 每 一 行 都 运行 ， 而 是 针对 一 条 SQL 语句 运行 一 
次 。 这 和 真正 意义 上 的 单条 SQL 语句 的 触发 器 并 不 相同 ， 不 过 可 以 使 
用 这 个 技术 来 模拟 单条 SQL 语句 的 BEFORE 触 发 器 。 这 个 行为 可 能 是 
MySQL 的 一 个 缺陷 ， 未 来 版 本 中 可 能 会 被 修复 ， 所 以 在 使 用 这 个 技巧 
的 时 候 ， 需 要 先 验证 在 你 的 MySQL 版 本 中 是 否 适 用 ， 另 外 ， 在 升级 数 
据 库 的 时 候 还 需要 检查 这 类 触发 器 是 否 还 能 够 正常 工作 。 下 面 是 一 个 
使 用 这 个 技巧 的 例子 : 


CREATE TRIGGER fake_statement_trigger 


BEFORE INSERT ON sometable 
FOR EACH ROW 
BEGIN 
DECLARE v_row_count INT DEFAULT ROW_COUNT(); 
IF v_row_count <> 1 THEN 
-- Your code here 
END IF; 


END; 


7.4.3 ”事件 


事件 是 MySQL 5.1 引 入 的 一 种 新 的 存储 代码 的 方式 。 它 类 似 于 
Linux 的 定时 任务 ， 不 过 是 完全 在 MySQL 内 部 实现 的 。 你 可 以 创建 事 
件 ， 指 定 MySQL 在 某 个 时 候 执 行 一 段 SQL 代码 ， 或 者 每 隔 一 个 时 间 间 
隔 执行 一 段 SQL 代 码 。 通 剃 ， 我 们 会 把 复杂 的 SQL 都 封 革 到 一 个 存储 
过 程 中 ， 这 样 事件 在 执行 的 时 候 只 需要 做 一 个 简单 的 CALL 调 用 。 


事件 在 一 个 独立 事件 调度 线程 中 被 初始 化 ， 这 个 线程 和 处 理 连 接 
的 线程 没有 任何 关系 。 它 不 接收 任何 参数 ， 也 没有 任何 的 返回 值 。 可 
以 在 MySQL 的 日 志 中 看 到 命令 的 执行 日 志 ， 还 可 以 在 表 
INFORMATION_SCHEMA.EVENTS 中 看 到 各 个 事件 状态 ， 例 如 这 个 
事件 最 后 一 次 被 执行 的 时 间 等 。 


类 似 的， 一 些 适用 于 存储 过 程 的 考虑 也 同样 适用 于 事件 。 前 先 ， 
创建 事件 意味 着 给 服务 器 带 来 额外 工作 。 事 件 实现 机 制 本 身 的 开销 并 
不 大 ， 但 是 事件 需要 执行 SQL， 则 可 能 会 对 性 能 有 很 大 的 影响 。 更 进 
一 步 ， 事 件 和 其 他 的 存储 程序 一 样 ， 在 和 基于 语句 的 复制 一 起 工作 


时 ， 也 可 能 会 触发 同样 的 问题 。 事 件 的 一 些 典 型 应 用 包括 定期 地 维护 
任务 、 重 建 缓 存 、 构 建 汇总 胡来 模拟 物化 视图 ， 或 者 存储 用 于 监控 和 
诊断 的 状态 值 。 


下 面 的 例子 创建 了 一 个 事件 ， 它 会 每 周一 次 针对 某 个 数据 库 运 行 
一 个 存储 过 程 〈 后 面 我 们 将 展示 如 何 创建 这 个 存储 过 程 ) : 


CREATE EVENT optimize_somedb ON SCHEDULE EVERY 1 WEEK 
DO 


CALL optimize_tables('somedb'); 


你 可 以 指定 事件 本 身 是 否 被 复制 。 根 据 需要 ， 有 时 需要 被 复制 ， 
有 时 则 不 需要 。 看 前 面 的 例子 ， 你 可 能 会 希望 在 所 有 的 备 库 上 都 运行 
OPTIMIZE TABLE， 不 过 要 注意 如 果 所 有 的 备 库 同 时 执行 ， 可 能 会 影 
响 服务 器 的 性 能 (会 对 表 加 锁 ) 。 


最 后 ， 如 果 一 个 定时 事件 执行 需要 很 长 的 时 间 ， 那 么 有 可 能 会 
现 这 样 的 情况 ， 即 前 面 一 个 事件 还 未 执行 完成 ， 下 一 个 时 间 点 的 事件 
又 开始 了 。MySQL 本 身 不 会 防止 这 种 并 发 ， 所 以 需要 用 户 自己 编写 这 
种 情况 下 的 防 并 发 代码 。 你 可 以 使 用 冰 数 GET_LOCKO 来 确保 当前 总 
是 只 有 一 个 事件 在 被 执行 : 


CREATE EVENT optimize_somedb ON SCHEDULE EVERY 1 WEEK 
DO 
BEGIN 


DECLARE CONTINUE HANLDER FOR SQLEXCEPTION 


BEGIN END; 
IF GET_LOCK('somedb', ©) THEN 
DO CALL optimize_tables('somedb'); 
END IF; 
DO RELEASE_LOCK('somedb' ); 
END 


这 里 的 “CONTINUE HANLDER” 用 来 确保 ， 即 使 当 事 件 执 行 出 现 
了 异样 ， 仍 然 会 释放 持 有 的 锁 。 


虽然 事件 的 执行 是 和 连接 无 关 的 ， 但 是 它 仍然 是 线程 级 别 的 。 
MySQL 中 有 一 个 事件 调度 线程 ， 必 须 在 MySQL 配 置 文件 中 设置 ， 或 
者 使 用 下 面 的 命令 来 设置 : 


mysql> SET GLOBAL event_scheduler := 1; 


该 选项 一 旦 设置 ， 该 线程 就 会 执行 各 个 用 户 指 定 的 事件 中 的 各 段 
SQL 代码 。 你 可 以 通过 观察 MySQL 的 错误 日 志 来 了 解 事件 的 执行 情 
况 。 


虽然 事件 调度 是 一 个 单独 的 线程 ， 但 是 事件 本 身 是 可 以 并 行 执行 
的 。MySQL 会 创建 一 个 新 的 进程 用 于 事件 执行 。 在 事件 的 代码 中 ， 如 
果 你 调用 函数 CONNECTION_IDO， 也 会 返回 一 个 唯一 值 ， 和 一 般 的 
线程 返回 值 一 样 一 一 虽然 事件 和 MySQL 的 连接 线程 是 无 关 的 〈 这 里 的 
国 数 CONNECTION_IDO 返 回 的 只 是 线程 ID) 。 这 里 的 进程 和 线程 生 
命 周期 就 是 事件 的 执行 过 程 。 可 以 通过 SHOW PROCESSLIST 中 的 
Command 列 来 查看 ， 这 些 线程 的 该 列 总 是 显示 为 “Connect”。 


虽然 事件 处 理 进程 需要 创建 一 个 线程 来 真正 地 执行 事件 ， 但 该 线 
程 在 时 间 执 行 结束 后 会 被 销毁 ， 而 不 会 放 到 线程 缓存 中 ， 并 且 状 态 值 
Threads_created 也 不 会 被 增加 。 


744 ”在 存储 程序 中 保留 注释 


存储 过 程 、 存 储 函 数 、 触 发 器 、 事 件 通常 都 会 包含 大 量 的 重要 代 
码 ， 在 这 些 代 码 中 加 上 注释 就 非常 有 必要 了 。 但 是 这 些 注释 可 能 不 会 
存储 在 MySQL 服 务 器 中 ， 因 为 MySQL 的 命令 行 客户 端 会 自动 过 滤 注 
释 (命令 行 客 户 端 的 这 个 “特性 ”* 令 人 生 大 ， 不 过 这 就 是 生活 ) o 


一 个 将 注释 存储 到 存储 程序 中 的 技巧 就 是 使 用 版 本 相关 的 注释 ， 
因为 这 样 的 注释 可 能 被 MySQL 服 务 器 执行 (例如 ， 只 有 版 本 号 大 于 某 
个 值 的 时 候 才 执行 的 代码 ) 。 服 务 器 和 客户 端 都 知道 这 不 是 普通 的 注 
释 ， 所 以 也 就 不 会 删除 这 些 注释 。 为 了 让 这 样 的 “版 本 相关 的 代码 ”不 
被 执行 ， 可 以 指定 一 个 非常 大 的 版 本 号 ， 例 如 99 999。 我 们 现在 给 触 
发 器 加 上 一 些 注释 文档 ， 让 它 更 易 读 : 


CREATE TRIGGER fake_statement_trigger 
BEFORE INSERT ON sometable 
FOR EACH ROW 
BEGIN 
DECLARE v_row_count INT DEFAULT ROW_COUNT(); 
/*199999 ROW_COUNT() is 1 except for the first row, 
so this executes 


only once per statement. */ 


IF v_row_count <> 1 THEN 
- Your code here 
END IF; 


END; 


7.5 游标 


MySQL 在 服务 器 端 提 供 只 读 的 、 单 向 的 游标 ， 而 且 只 能 在 存储 过 
程 或 者 更 底层 的 客户 端 API 中 使 用 。 因 为 MySQL 游标 中 指向 的 对 象 都 
是 存储 在 临时 表 中 而 不 是 实际 查询 到 的 数据 ， 所 以 MySQL 游标 总 是 只 
读 的 。 它 可 以 逐 行 指 向 查询 结果 ， 然 后 让 程序 做 进一步 的 处 理 。 在 一 
个 存储 过 程 中 ， 可 以 有 多 个 游标 ， 也 可 以 在 循环 中 “ 肉 套 ”地 使 用 游 
标 。MySQL 的 游标 设计 也 为 粗心 的 人 “准备 *» 了 陷阱 。 因 为 是 使 用 临时 
表 实 现 的 ， 所 以 它 在 效率 上 给 开发 人 员 一 个 错觉 。 需 要 记 住 的 最 重要 
的 一 点 是 : 当 你 打开 一 个 游标 的 时 候 需 要 执行 整个 查询 。 考 虑 下 面 的 
存储 过 程 : 


1 CREATE PROCEDURE bad_cursor() 
BEGIN 
DECLARE film_id INT; 
DECLARE f CURSOR FOR SELECT film_id FROM sakila. film; 


FETCH f INTO film_id; 


2 
3 

4 

5 OPEN f; 
6 

7 CLOSE f; 
8 


END 


从 这 个 例子 中 可 以 看 到 ， 不 用 处 理 完 所 有 的 数据 就 可 以 立刻 关闭 
游标 。 使 用 Oracle 或 者 SQL Server 的 用 户 不 会 认为 这 个 存储 过 程 有 什么 
问题 ， 但 是 在 MySQL 中 ， 这 会 带 来 很 多 的 不 必要 的 额外 操作 。 使 用 
SHOW STATUS 来 诊断 这 个 存储 过 程 ， 可 以 看 到 它 需 要 做 1000 个 索引 
页 的 读 取 ， 做 1000 个 写 入 。 这 是 因为 在 表 sakila.film 中 有 1000 条 记录 ， 
而 所 有 这 些 读 和 写 都 发 生 在 第 五 行 的 打开 游标 动作 。 


这 个 案例 告诉 我 们 ， 如 果 在 关闭 游标 的 时 候 你 只 是 扫描 一 个 大 结 
果 集 的 一 小 部 分 ， 那 么 存储 过 程 可 能 不 仪 没有 减少 开销 ， 相 反 审 来 了 
大 量 的 额外 开销 。 这 时 ， 你 需要 考虑 使 用 LIMIT 来 限制 返回 的 结果 


Œ 


NO 


游标 也 会 让 MySQL 执 行 一 些 额 外 的 IO 操作 ， 而 这 些 操作 的 效率 
可 能 非常 低 。 因 为 临时 内 存 表 不 支持 BLOB 和 TEXT 类 型 ， 如 果 游 标 返 
回 的 结果 包含 这 样 的 列 的 话 ，MySQL 就 必须 创建 临时 磁盘 表 来 存放 ， 
这 样 性 能 可 能 会 很 糟 。 即 使 没有 这 样 的 列 ， 当 临时 表 大 于 
tmp_table_size 的 时 候 ，MyQL 也 还 是 会 在 磁盘 上 创建 临时 表 。 

MySQL 不 支持 客户 端的 游标 ， 不 过 客户 端 API 可 以 通过 缓存 全 部 
查询 结果 的 方式 模拟 客户 端的 游标 。 这 和 直接 将 结果 放 在 一 个 内 存 数 
组 中 来 维护 并 没有 什么 不 同 。 参 考 第 6 章 ， 你 可 以 看 到 更 多 关于 一 次 性 
读 取 整 个 结果 集 到 客户 端 时 的 性 能 。 


7.6” 绑 定 变量 


从 MySQL 4.1 版 本 开始 ， 就 支持 服务 器 端的 绑 定 变量 (prepared 
statement) ， 这 大 大 提高 了 客户 端 和 服务 器 端 数 据 传输 的 效率 。 你 若 


使 用 一 个 支持 新 协议 的 客户 端 ， 如 MySQL CAPI， 就 可 以 使 用 绑 定 变 
量 功 能 了 。 另 外 ，Java 和 .NET 的 也 都 可 以 使 用 各 自 的 客户 端 
ConnectorJ 和 Connector/NET 来 使 用 绑 定 变量 。 最 后 ， 还 有 一 个 SQL 接 
口 用 于 支持 绑 定 变量 ， 后 面 我 们 将 讨论 这 个 (这 里 容易 引起 困扰 ) o 


当 创 建 一 个 绑 定 变量 SQL 时 ， 客 户 端 向 服务 器 发 送 了 一 个 SQL 语 
句 的 原型 。 服 务 器 端 收 到 这 个 SQL 语句 框架 后 ， 解 析 并 存储 这 个 SQL 
语句 的 部 分 执行 计划 ， 返 回 给 客户 端 一 个 SQL 语句 处 理 句 柄 。 以 后 每 
次 执行 这 类 查询 ， 客 户 端 都 指定 使 用 这 个 句柄 。 


绑 定 变量 的 SQL ， 使 用 问号 标记 可 以 接收 参数 的 位 置 ， 当 真正 需 
要 执行 具体 碍 询 的 时 候 ， 则 使 用 具体 值 代替 这 些 问号 。 例 如 ， 下 面 是 
一 个 绑 定 变 量 的 SQL 语句 : 


INSERT INTO tbl(coli1, col2, col3) VALUES (?, ?, ?); 


可 以 通过 向 服务 器 端 发 送 各 个 问号 的 取 值 和 这 个 SQL 的 句柄 来 执 
行 一 个 具体 的 查询 。 反 复 使 用 这 样 的 方式 执行 具体 的 查询 ， 这 正 是 绑 
定 变量 的 优势 所 在 。 具 体 如 何 发 送 取 值 参数 和 SQL 句柄 ， 则 和 各 个 客 
户 端的 编程 语言 有 关 。 使 用 Java 和 .NET 的 MySQL 连 接 器 就 是 一 种 办 
法 。 很 多 使 用 MySQL C 语 言 链 接 库 的 客户 端 可 以 提供 类 似 的 接口 ， 需 
要 根据 使 用 的 编程 语言 的 文档 来 了 解 如 何 使 用 绑 定 变量 。 


因为 如 下 的 原因 ，MySQL 在 使 用 绑 定 变量 的 时 候 可 以 更 高 效 地 执 
行 大 量 的 重复 语句 : 


。 在 服务 器 端 只 需要 解析 一 次 SQL 语 句 。 


。 在 服务 器 端 某 些 优化 器 的 工作 只 需要 执行 一 次 ， 因 为 它 会 缓存 一 
部 分 的 执行 计划 。 

以 二 进 制 的 方式 只 发 送 参 数 和 句柄 ， 比 起 每 次 都 发 送 ASCII 码 文 
本 效率 更 高 ， 一 个 二 进 制 的 日 期 字段 只 需要 三 个 字 节 ， 但 如 果 是 
ASCII 码 则 需要 十 个 字 节 。 不 过 最 大 的 节省 还 是 来 自 于 BLOB 和 
TEXT 字段 ， 绑 定 变 量 的 形式 可 以 分 块 传输 ， 而 无 须 一 次 性 传 
输 。 二 进 制 协议 在 客户 端 也 可 能 节省 很 多 内 存 ， 减 少 了 网 络 开 
销 ， 另 外 ， 还 节省 了 将 数据 从 存储 原始 格式 转换 成 文本 格式 的 开 
销 。 

仅仅 是 参数 一 一 而 不 是 整个 查询 语句 一 一 需要 友 运 到 服务 器 端 ， 
所 以 网 络 开销 会 更 小 。 

MySQL 在 存储 参数 的 时 候 ， 直 接 将 其 存放 到 缓存 中 ， 不 再 需要 在 
内 存 中 多 次 复制 。 


绑 定 变量 相对 也 更 安全 。 无 须 在 应 用 程序 中 处 理 转 义 ， 一 则 更 简 
单 了 ， 二 则 也 大 大 减少 了 SQL 注入 和 攻击 的 风险 。 (任何 时 候 都 不 要 
信任 用 户 输入 ， 即 使 是 使 用 绑 定 变量 的 时 候 。) 


可 以 只 在 使 用 绑 定 变量 的 时 候 才 使 用 二 进 制 传输 协议 。 如 果 使 用 
普通 的 mysql_query0 接 口 则 不 会 使 用 二 进 制 传输 协议 。 还 有 一 些 客户 
端 让 你 使 用 绑 定 变量 ， 先 发 送 带 参数 的 绑 定 SQL ， 然 后 发 送 变 量 值 ， 
但 是 实际 上 ， 这 些 客户 端 只 是 模拟 了 绑 定 变量 的 接口 ， 最 后 还 是 会 直 
接 用 具体 值 代替 参数 后 ， 表 使 用 mysql_query0 发 送 整 个 查询 语句 。 


76.1 ” 绑 定 变量 的 优化 


对 使 用 绑 定 变 量 的 SQL ，MySQL 能 够 缓存 其 部 分 执行 计划 ， 如 果 
某 些 执行 计划 需要 根据 传 入 的 参数 来 计算 时 ，MySQL 就 无 法 缓存 这 音 
分 的 执行 计划 。 根 据 优化 器 什么 时 候 工 作 ， 可 以 将 优化 分 为 三 类 。 在 
本 书 编写 的 时 候 ， 下 面 的 三 点 是 适用 的 。 


在 准备 阶段 
服务 器 解析 SQL 语句 ， 移 除 不 可 能 的 条 件 ， 并 且 重 写 子 查 
询 。 
在 第 一 次 执行 的 时 候 
如 果 可 能 的 话 ， 服 务 器 先 简化 主 套 循环 的 关联 ， 并 将 外 关联 
转化 成 内 关联 。 
在 每 次 SQL 语句 执行 时 
服务 器 做 如 下 事情 : 
° 过 滤 分 区 。 
。 如 果 可 能 的 话 ， 尽 量 移 除 COUNTO、MINO 和 MAX0。 
。 移 除 常数 表达 式 。 
° 检测 常量 o 
。 做 必要 的 等 值 传播 。 


。 分 析 和 优化 ref、range 和 索引 优化 等 访问 数据 的 方法 。 
。 优化 关联 顺序 。 


参考 第 6 章 ， 可 以 了 解 更 多 关于 这 些 优化 的 信息 。 理 论 上 ， 有 些 优 
化 只 需要 做 一 次 ， 但 实际 上 ， 上 面 的 操作 还 是 都 会 被 执行 。 


76.2 ”SQL 接口 的 绑 定 变量 


在 4.1 和 更 新 的 版 本 中 ，MySQL 支 持 了 SQL 接口 的 绑 定 变量 。 不 使 
用 二 进 制 传输 协议 也 可 以 直接 以 SQL 的 方式 使 用 绑 定 变量 。 下 面 案例 
展示 了 如 何 使 用 SQL 接口 的 绑 定 变 量 : 


mysql> = @sql := 'SELECT actor_id, first_name, last_name 
-> FROM zakila. actor WHERE first_| name = ?'; 

mysql> PREPARE stmt la tc cha ctor FROM | ôs sql; 

mysql> SET @actor ' Penelope' 

mysql> ERECT stm è ie te ha ctor USING @actor 


+----------+------------+-----------+ 


ES eee 
| 1 | PENELOPE | GUINESS | 
| 54 | PENELOPE | PINKETT 

| 104 | PENELOPE | CRONYN | 
| 120 | PENELOPE | MONROE | 


+----------+------------+-----------+ 


mysql> DEALLOCATE PREPARE stmt_fetch_actor; 


当 服 务 器 收 到 这 些 SQL 语 句 后 ， 先 会 像 一 般 客户 端的 链接 库 一 样 
将 其 翻译 成 对 应 的 操作 。 


这 意味 着 你 无 须 使 用 二 进 制 协议 也 可 以 使 用 绑 定 变量 。 


正如 你 看 到 的 ， 比 起 直接 编写 的 SQL 语句 ， 这 里 的 语法 看 起 来 有 
一 些 怪 怪 的 。 那 么 ， 这 种 写法 实现 的 绑 定 变 量 到 底 有 什么 优势 呢 ? 


最 主要 的 用 途 就 是 在 存储 过 程 中 使 用 。 在 MySQL 5.0 版 本 中 ， 就 
可 以 在 存储 过 程 中 使 用 绑 定 变量 ， 其 语法 和 前 面 介 绍 的 SQL 接口 的 绑 
定 变量 类 似 。 这 意味 ， 可 以 在 存储 过 程 中 构建 并 执行 “动态 ”的 SQL 语 
句 ， 这 里 的 “动态 ”是 指 可 以 通过 灵活 地 拼接 字符 串 等 参数 构建 SQL 语 
句 。 例 如 ， 下 面 的 示例 存储 过 程 中 可 以 针对 某 个 数据 库 执 行 
OPTIMIZE TABLE 的 操作 : 


DROP PROCEDURE IF EXISTS optimize_tables; 
DELIMITER // 
CREATE PROCEDURE optimize_tables(db_name VARCHAR(64) ) 
BEGIN 
DECLARE t VARCHAR(64); 
DECLARE done INT DEFAULT 0; 
DECLARE c CURSOR FOR 


SELECT table_name FROM INFORMATION_SCHEMA. TABLES 


WHERE TABLE_SCHEMA = db_name AND TABLE_TYPE = 'BASE 
TABLE'; 

DECLARE CONTINUE HANDLER FOR SQLSTATE '02000' SET done = 
1; 

OPEN c; 


tables_loop: LOOP 
FETCH c INTO t; 
IF done THEN 
LEAVE tables_loop; 
END IF; 


SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db_name, 


PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 

END LOOP; 


CLOSE c; 


END// 
DELIMITER ; 


可 以 这 样 调用 这 个 存储 过 程 : 


mysql> CALL optimize_tables('sakila' ) 


另 一 种 实现 存储 过 程 中 循环 的 办 法 是 : 


REPEAT 
FETCH c INTO t; 
IF NOT done THEN 
SET @stmt_text := CONCAT("OPTIMIZE TABLE ", db_name, 
Brads 
PREPARE stmt FROM @stmt_text; 
EXECUTE stmt; 
DEALLOCATE PREPARE stmt; 
END IF; 
UNTIL done END REPEAT; 


这 两 种 循环 结构 最 重要 的 区 别 在 于 : REPEAT 会 为 每 个 循环 检查 
两 次 循环 条 件 。 在 这 个 例子 中 ， 因 为 循环 条 件 检查 的 是 一 个 整数 判 
断 ， 并 不 会 有 什么 性 能 问题 ， 如 果 循环 的 判断 条 件 非常 复杂 的 话 ， 则 
需要 注意 这 两 者 的 区 别 。 


像 这 样 使 用 SQL 接 口 的 绑 定 变量 拼接 表 名 和 库 名 是 很 常见 的 ， 这 
样 的 好 处 是 无 须 使 用 任何 参数 就 能 完成 SQL 语句 。 而 库 名 和 表 名 都 是 


关键 子 ， 在 二 进 制 协议 的 绑 定 变量 中 是 不 能 将 这 两 部 分 参数 化 的 。 另 
一 个 经 常 需要 动态 设置 的 就 是 LIMIT 子 句 ， 因 为 二 进 制 协议 中 也 无 法 
将 这 个 值 参 数 化 。 


另外 ， 编 写 存 储 过 程 时 ，SQL 接 口 的 绑 定 变量 通常 可 以 很 大 程度 
地 帮助 我 们 调试 绑 定 变量 ， 如 果 不 是 在 存储 过 程 中 ，SQL 接 口 的 绑 定 
变量 就 不 是 那么 有 用 了 。 因 为 SQL 接口 的 绑 定 变量 ， 它 既 没有 使 用 二 
进 制 传输 协议 ， 也 没有 能 够 节省 带宽 ， 相 反 还 总 是 需要 增加 至 少 一 次 
额外 网 络 传输 才能 完成 一 次 查询 。 所 有 只 有 在 某 些 特殊 的 场景 下 SQL 
接口 的 绑 定 变量 才 有 用 ， 比 如 当 SQL 语 句 非常 非 党 长， 并 且 需 要 多 次 
执行 的 时 候 。 


7.6.3 ” 绑 定 变量 的 限制 


关于 绑 定 变量 的 一 些 限 制 和 注意 事项 如 下 : 


绑 定 变量 是 会 话 级 别 的 ， 所 以 连接 之 间 不 能 共用 绑 定 变量 句柄 。 
同样 地 ， 一 旦 连接 断 开 ， 则 原来 的 句柄 也 不 能 再 使 用 了 。 (连接 
池 和 持久 化 连接 可 以 在 一 定 程度 上 缓解 这 个 问题 。) 

在 MySQL 5.1 版 本 之 前 ， 绑 定 变 量 的 SQL 是 不 能 使 用 查询 缓存 
的 。 

并 不 是 所 有 的 时 候 使 用 绑 定 变量 都 能 获得 更 好 的 性 能 。 如 果 只 是 
执行 一 次 SQL， 那 么 使 用 绑 定 变量 方式 无 疑 比 直接 执行 多 了 一 次 
额外 的 准备 阶段 消耗 ， 而 且 还 需要 一 次 额外 的 网 络 开销 。 (BIE 
确 地 使 用 绑 定 变量 ， 还 需要 在 使 用 完成 后 ， 释 放 相 关 的 资源 。) 

当前 版 本 下 ， 还 不 能 在 存储 函数 中 使 用 绑 定 变量 (但 是 存储 过 程 
中 可 以 使 用 ) 。 


。 如 果 总 是 忘 记 释 放 绑 定 变量 资源 ， 则 在 服务 器 端 很 容易 发 生 资源 
Te’ FESS SQL 总 数 的 限制 是 一 个 全 局 限制 ， 所 以 某 一 个 
地 方 的 错误 可 能 会 对 所 有 其 他 的 线程 都 产生 影响 。 

。 有 些 操作 ， 如 BEGIN， 无 法 在 绑 定 变 量 中 完成 。 


不 过 使 用 绑 定 变量 最 大 的 障碍 可 能 是 : 它 是 如 何 实现 以 及 原理 是 
怎样 的 ， 这 两 点 很 容易 让 人 困惑 。 有 时 ， 很 难 解释 如 下 三 种 绑 定 变量 
类 型 之 间 的 区 别 是 什么 : 


客户 问 模 拟 的 绑 定 变量 


客户 端的 驱动 程序 接收 一 个 党 参数 的 SQL ， 再 将 指定 的 值 带 
入 其 中 ， 最 后 将 完整 的 查询 发 送 到 服务 器 端 。 
服务 器 端的 绑 定 变量 
客户 端 使 用 特殊 的 二 进 制 协议 将 融 参 数 的 字符 串 发 送 到 服务 
器 端 ， 然 后 使 用 二 进 制 协议 将 具体 的 参数 值 发 送 给 服务 器 端 并 执 


ww 一 


行 。 
SQL 接口 的 绑 定 变量 
客户 端 先 发 送 一 个 带 参 数 的 字符 串 到 服务 器 端 ， 这 类 似 于 使 用 


PREPARE 的 SQL 语句， 然后 发 送 设 置 参数 的 SQL ， 最 后 使 用 
EXECUTE 来 执行 SQL。 所 有 这 些 都 使 用 普通 的 文本 传输 协议 。 


7.7 ”用户 目 定 义 冰 数 


从 很 早 开始 ，MySQL 就 支持 用 户 自 定义 函数 (UDF) 。 存 储 过 程 
只 能 使 用 SQL 来 编写 ， 而 UDF 没 有 这 个 限制 ， 你 可 以 使 用 支持 C 语 言 
调用 约定 的 任何 编程 语言 来 实现 。 


UDF 必 须 事先 编译 好 并 动态 链接 到 服务 器 上 ， 这 种 平台 相关 性 使 
得 UDF 在 很 多 方面 都 很 强大 。UDF 速 度 非常 快 ， 而 且 可 以 访问 大 量 操 
作 系 统 的 功能 ， 还 可 以 使 用 大 量 库 函 数 。 使 用 SQL 实现 的 存储 孙 数 在 
实现 一 些 简 单 操作 上 很 有 优势 ， 诸 如 计算 球体 上 两 点 之 间 的 距离 ， 但 
是 如 果 操 作 涉 及 到 网 络 交 互 ， 那 么 只 能 使 用 UDF 了 。 同 样 地 ， 如 果 需 
要 一 个 MySQL 不 支持 的 统计 聚合 函数 ， 而 且 无 法 使 用 SQL 编写 的 存储 
孙 数 来 实现 的 话 ， 通 常 使 用 UDF 是 很 容易 实现 的 。 


能 力 越 大 ， 责 任 越 大 。 所 以 在 UDF 中 的 一 个 错误 很 可 能 会 让 服务 
器 直接 朋 演 ， 甚 至 扰乱 服务 器 的 内 存 或 者 数据 ， 另 外 ， 所 有 C 语 言 
有 的 潜在 风险 ，UDF 也 都 有 。 


| 2: Í 和 使 用 SQL 语言 编写 存储 程序 不 同 ，UDEF 无 法 读 写 数 据 表 一 一 至 少 ， 无 法 在 调用 
UDF 的 线程 中 使 用 当前 事务 处 理 的 上 下 文 来 读 写 数据 表 。 这 意味 着 ， 它 更 适合 用 作 计 算 或 者 
与 外 面 的 世界 交互 。MySQL 已 经 支持 越 来 越 多 的 方式 和 外 面 的 资源 交互 了 。Brian Aker 和 
Patrick Galbraith 创建 的 与 memcached 通 信 的 函数 就 是 一 个 UDF 很 好 的 案例 (参考 : 


http://tangent.org/586/Memcached_Functions_for_MySQL.html) o 


如 果 打 算 使 用 UDF， 那 么 在 MySQL 版 本 升级 的 时 候 需 要 特别 注意 
做 相应 的 改变 ， 因 为 很 可 能 需要 重新 编译 这 些 UDF， 或 者 甚至 需要 修 
改 UDF 来 让 它 能 在 新 的 版 本 中 工作 。 还 需要 注意 的 是 ， 你 需要 确保 
UDF 是 线程 安全 的 ， 因 为 它们 需要 在 MySQL 中 执行 ， 而 MySQL 是 一 
个 纯粹 的 多 线程 环境 。 


现在 已 经 有 很 多 写 好 的 UDF 直 接 提 供给 MySQL 使 用 ， 还 有 很 多 
UDF 的 示例 可 供 参 考 ， 以 便 完成 自己 的 UDF。 现 在 UDF 最 大 的 仓库 是 
http:/www.mysqludf.orgo 


下 面 是 一 个 用 户 自 定义 函数 NOW_USEC0O 的 代码 ， 这 个 函数 在 第 
10 章 中 我 们 将 用 它 来 测量 复制 的 速度 : 


#include <my_global.h> 
#include <my_sys.h> 
#include <mysql.h> 
#include <stdio.h> 
#include <sys/time.h> 
#include <time.h> 
#include <unistd.h> 
extern "C" { 
my_bool now_usec_init(UDF_INIT *initid, UDF_ARGS “*args, 
char *message); 
char *now_usec( 
UDF_INIT *initid, 
UDF_ARGS *args, 
char *result, 
unsigned long *length, 
char *is_null, 


char *error); 


my_bool now_usec_init(UDF_INIT *initid, UDF_ARGS “args, 


char *message) { 


return 0; 
} 
char *now_usec(UDF_INIT *initid, UDF_ARGS *args, char 
*result, 
unsigned long *length, char *is_null, char 
*error) { 


struct timeval tv; 
struct tm* ptm; 
char time_string[20]; /* e.g. "2006-04-27 17:10:52" */ 
char *usec_time_string = result; 
time_t t; 
/* Obtain the time of day, and convert it to a tm struct. 
*/ 
gettimeofday (&tv, NULL); 
t = (time_t)tv.tv_sec; 
ptm = localtime (&t); 
/* Format the date and time, down to a single second. */ 
| Chapter 7: Advanced MySQL Features strftime 
(time_string, sizeof (time_string), "%Y-%m-%d %H:%M:%S", ptm); 
/* Print the formatted time, in seconds, followed by a 
decimal point 
* and the microseconds. */ 
sprintf(usec_time_string, "%s.%06ld\n", time_string, 
tv.tv_usec); 


*length = 26; 


return(usec_time_string); 


} 


参考 前 一 章 中 的 案例 学 习 ， 可 以 看 到 如 何 使 用 用 户 自 定义 孙 数 来 
解决 一 些 环 手 的 问题 。 我 们 在 Percona Toolkit 中 也 使 用 了 UDF 来 完成 一 
些 工 作 ， 例 如 高 效 的 数据 复制 校 验 ， 或 者 在 Sphinx 索 引 之 前 使 用 UDF 
来 预 处 理 一 些 问题 等 。UDF 是 一 款 非 常 强大 的 工具 。 


7.8 ”插件 


除了 UDF ，MySQL 还 支持 各 种 各 样 的 插件 。 这 些 插件 可 以 在 
MySQL 中 新 增 启 动 选项 和 状态 值 ， 还 可 以 新 增 
INFORMATION_SCHEMA 表 ， 或 者 在 MySQL 的 后 台 执 行 任 务 ， 等 
a 
2 导 你 无 须 直接 修改 MySQL 的 源 代码 就 可 以 大 大 扩展 它 的 功能 。 下 

一 个 简单 的 插件 列表 。 


存储 过 程 插件 
存储 过 程 插件 可 以 帮 你 在 存储 过 程 运行 后 再 处 理 一 次 运行 结 
果 。 这 是 一 个 很 古老 的 插件 了 ， 和 UDF 有 些 类 似 ， 多 数 人 都 可 能 


忘记 了 这 个 插件 的 存在 。 内 置 的 PROCEDURE ANALYSE 就 是 一 
个 很 好 的 示例 。 


后 全 插件 


后 台 插 件 可 以 让 你 的 程序 在 MySQL 中 运行 ， 可 以 实现 自己 的 
网 络 监听 、 执 行 自己 的 定期 任务 。 后 台 揪 件 的 一 个 典型 例子 就 是 
在 Percona Server 中 包含 的 Handler-Socket 插 件 。 它 监听 一 个 新 的 网 
络 端口 ， 使 用 一 个 简单 的 协议 可 以 帮 你 无 须 使 用 SQL 接口 直接 访 
问 InnoDB 数 据 ， 这 也 使 得 MySQL 能 够 像 一些 NoSQL 一 样 具有 非 
党 高 的 性 能 。 


INFORMATION_SCHEMA 插 件 


这 个 插件 可 以 提供 一 个 新 的 内 存 INFORMATION_SCHEMA 
表 。 


全 文 解析 插件 


这 个 插件 提供 一 种 处 理 文 本 的 功能 ， 可 以 根据 自己 的 需求 来 
对 一 个 文档 进行 分 词 ， 所 以 如 果 给 定 一 个 PDF 文档 目录 ， 可 以 使 
用 这 个 插件 对 这 个 文档 进行 分 词 处 理 。 也 可 以 用 此 来 增强 碍 询 执 
行 过 程 中 的 词语 匹配 功能 。 


审计 插件 


审计 插件 在 查询 执行 的 过 程 中 的 某 些 固定 点 被 调用 ， 所 以 它 
可 以 用 作 (例如 ) 记录 MySQL 的 事件 日 志 。 


认证 插件 


认证 插件 既 可 以 在 MySQL 客 户 端 也 可 在 它 的 服务 器 端 ， 可 以 
使 用 这 类 插件 来 扩展 MySQL 的 认证 功能 ， 例 如 可 以 实现 PAM 和 
LDAP 认 证 。 


要 了 解 更 多 细节 ， 可 以 参考 MySQL 的 官方 手册 ， 或 者 读 读 由 
Sergei Golubchik 和 Andrew Hutchings (Packt) fn 5 的 MySQL 5.1 
Plugin Development。 如 果 你 需要 一 个 插件 ， 但 是 却 不 知道 怎么 实 
现 ， 有 很 多 公司 都 提供 这 类 咨询 服务 ， 例 如 Monty Program、 Open 
Query、Percona 和 SkySQL。 


7.9 ”字符 集 和 校对 


字符 集 是 指 一 种 从 二 进 制 编 码 到 某 类 字符 符号 的 映射 ， 可 以 参考 
如 何 使 用 一 个 字 节 来 表示 英文 字母 。“ 校 对 ”是 指 一 组 用 于 某 个 字符 集 
的 排序 规则 。MySQL 4.1 和 之 后 的 版 本 中 ， 每 一 类 编码 字符 都 有 其 对 
应 的 字符 集 和 校对 规则 @)。MySQL 对 各 种 字符 集 的 支持 非常 完善 ， 但 
是 这 也 带 来 了 一 定 的 复杂 性 ， 某 些 场景 下 甚至 会 有 一 定 的 性 能 牺牲 。 
(另外 ， 曾 经 Drizzle 放 弃 了 所 有 的 字符 集 ， 所 有 字符 全 部 统一 使 用 
UTF-8。) 


本 节 将 解释 在 实际 使 用 中 ， 你 可 能 最 需要 的 一 些 设置 和 功能 。 如 
果 想 了 解 更 多 细节 ， 可 以 详细 地 阅读 MySQL 官 方 手册 的 相关 章节 。 


7.9.1 _ MySQL 如 何 使 用 字符 集 


每 种 字符 集 都 可 能 有 多 种 校对 规则 ， 并 且 都 有 一 个 默认 的 校对 规 
则 。 每 个 校对 规则 都 是 针对 某 个 特定 的 字符 集 的 ， 和 其 他 的 字符 集 没 
有 关系。 校对 规则 和 字符 集 总 是 一 起 使 用 的 ， 所 以 后 面 我 们 将 这 样 的 
组 合 也 统称 为 一 个 字符 集 。 


MySQL 有 很 多 的 选项 用 于 控制 字符 集 。 这 些 选项 和 字符 集 很 容易 
EA, ELIE: 只 有 基于 字符 的 值 才 真正 的 “有 ”字符 集 的 概念 。 
对 于 其 他 类 型 的 值 ， 字 符 集 只 是 一 个 设置 ， 指 定 用 哪 一 种 字符 集 来 做 
比较 或 者 其 他 操作 。 基 于 字符 的 值 能 存放 在 某 列 中 、 查 询 的 字符 串 
中 、 表 达 式 的 计算 结果 中 或 者 某 个 用 户 变 量 中 ， 等 等 。 


MySQL 的 设置 可 以 分 为 两 类 : 创建 对 象 时 的 默认 值 、 在 服务 器 和 
客户 端 通信 时 的 设置 。 


创建 对 象 时 的 默认 设置 


MySQL 服 务 器 有 默认 的 字符 集 和 校对 规则 ， 每 个 数据 库 也 有 自己 
的 默认 值 ， 每 个 表 也 有 自己 的 默认 值 。 这 是 一 个 逐 层 继承 的 默认 设 
置 ， 最 终 最 靠 底层 的 默认 设置 将 影响 你 创建 的 对 象 。 这 些 默 认 值 ， 至 
上 而 下 地 告诉 MySQL 应 该 使 用 什么 字符 集 来 存储 某 个 列 。 


在 这 个 “阶梯 ”的 每 一 层 ， 你 都 可 以 指定 一 个 特定 的 字符 集 或 者 让 
服务 器 使 用 它 的 默认 值 : 


。 创建 数据 库 的 时 候 ， 将 根据 服务 器 上 的 character_set_server 设 置 来 
设 定 该 数据 库 的 默认 字符 集 。 

。 创建 表 的 时 候 ， 将 根据 数据 库 的 字符 集 设置 指定 这 个 表 的 字符 集 
设置 。 

。 创建 列 的 时 候 ， 将 根据 表 的 设置 指定 列 的 字符 集 设置 。 


需要 记 住 的 是 ， 真 正 存 放 数 据 的 是 列 ， 所 以 更 高 “阶梯 ”的 设置 只 
是 指定 默认 值 。 一 个 表 的 默认 字符 集 设置 无 法 影响 存储 在 这 个 表 中 某 


个 列 的 值 。 只 有 当 创 建 列 而 没有 为 列 指定 字符 集 的 时 候 ， 如 果 没 有 指 
定 字符 集 ， 表 的 默认 字符 集 才 有 作用 。 


服务 器 和 客户 端 通信 时 的 设置 


当 服 务 器 和 客户 端 通信 的 时 候 ， 它 们 可 能 使 用 不 同 的 字符 集 。 这 
时 ， 服 务 器 端 将 进行 必要 的 翻译 转换 工作 : 


服务 器 端 总 是 假设 客户 端 是 按照 character_set_client 设 置 的 字符 来 
传输 数据 和 SQL 语句 的 。 

当 服 务 器 收 到 客户 端的 SQL 语句 时 ， 它 先 将 其 转换 成 字符 集 
character_set_connection。 它 还 使 用 这 个 设置 来 决定 如 何 将 数据 转 
换 成 字符 串 。 

当 服 务 器 端 返 回 数据 或 者 错误 信息 给 客户 端 时 ， 它 会 将 其 转换 成 


character_set_resulto 


图 7-2 展 示 了 这 个 过 程 。 


服务 器 


A. character_set_client FAFE 
$8484) character_set_connection 


从 character_set_connection 转换 为 
字符 入 character_set_result 


图 7-2 : 客户 端 和 服务 器 的 字符 集 


根据 需要 ， 可 以 使 用 SET NAMES 或 者 SET CHARACTER SET 语 
句 来 改变 上 面 的 设置 。 不 过 在 服务 器 上 使 用 这 个 命令 只 能 改变 服务 器 
端的 设置 。 客 户 端 程序 和 客户 端的 API 也 需要 使 用 正确 的 字符 集 才 能 
避免 在 通信 时 出 现 问题 。 


假设 使 用 latin1 字 符 集 (这 是 默认 字符 集 ) 打开 一 个 连接 ， 并 使 用 
SET NAMES utf8 来 告诉 服务 器 客户 端 将 使 用 UTF-8 字 符 集 来 传输 数 
据 。 这 样 就 创建 了 一 个 不 匹配 的 字符 集 ， 可 能 会 导致 一 些 错误 甚至 出 
现 一 些 安全 性 问题 。 应 当先 设置 客户 端 字符 集 然 后 使 用 函数 
mysql_real_escape_string() 在 需要 的 时 候 进行 转 义 。 在 PHP 中 ， 可 以 使 
用 mysql_set_charset0) 来 修改 客户 端的 字符 集 。 


MySQL 如 何 比较 两 个 字符 串 的 大 小 


如 果 比 较 的 两 个 字符 串 的 字符 集 不 同 ，MySQL 会 先 将 其 转 成 同一 
个 字符 集 再 进行 比较 。 如 果 两 个 字符 集 不 兼容 的 话 ， 则 会 抛 出 错误 ， 
例如 “ERROR 1267(HY000):Illegal mix of collations”。 这 种 情况 下 需要 
通过 函数 CONVERTO 显 式 地 将 其 中 一 个 字符 串 的 字符 集 转 成 一 个 兼容 
的 字符 集 。MySQL 5.0 和 更 新 的 版 本 经 常会 做 这 样 的 隐 式 转换 ， 所 以 
这 类 错误 通常 是 在 MySQL 4.1 中 比较 常见 。 


MySQL 还 会 为 每 个 字符 串 设 置 一 个 “可 转换 性 ”40。 这 个 设置 决定 
了 值 的 字符 集 的 优先 级 ， 因 而 会 影响 MySQL 做 字符 集 隐 式 转换 后 的 
值 。 另 外 ， 也 可 以 使 用 国 数 CHARSETO 、COLLATIONO 、 和 
COERCIBILITY() 来 定位 各 种 字符 集 相关 的 错误 。 


还 可 以 使 用 前 缀 和 COLLATE 子 句 来 指定 字符 串 的 字符 集 或 者 校对 
字符 集 。 例 如 ， 下 面 的 示例 中 使 用 了 前 缀 (由 下 男 线 开始 ) 来 指定 
utf8 字 符 集 ， 还 使 用 了 COLLATE 子 句 指定 了 使 用 二 进 制 校对 规则 : 


mysql> SELECT _utf8 ‘hello world’ COLLATE utf8_bin; 


+--------------------------------------+ 
+--------------------------------------+ 


+--------------------------------------+ 


一 些 特 殊 情 况 


MySQL 的 字符 集 行为 中 还 是 有 一 些 隐藏 的 “惊喜 ”的 。 下 面 列举 了 
一 些 需要 注意 的 地 方 : 


诡异 的 character_set_database 设 置 


character_set_database 设 置 的 默认 值 和 默认 数据 库 的 设置 相 
同 。 当 改变 默认 数据 库 的 时 候 ， 这 个 变量 也 会 跟着 变 。 所 以 当 连 
接 到 MySQL 实 例 上 又 没有 指定 要 使 用 的 数据 库 时 ， 默 认 值 会 和 


character_set_server 相 同 。 
LOAD DATA INFILE 


当 使 用 LOAD DATA INFILE 的 时 候 ， 数 据 库 总 是 将 文件 中 的 
字符 按照 字符 集 character_set_database 来 解析 。 在 MySQL 5.0 和 更 
新 的 版 本 中 ， 可 以 在 LOAD DATA INFILE 中 使 用 子 句 
CHARACTER SET 来 设 定 字符 集 ， 不 过 最 好 不 要 依赖 这 个 设 定 。 
我 们 发 现 指定 字符 集 最 好 的 方式 是 先 使 用 USE 指 定数 据 库 ， 再 执 
行 SET NAMES 来 设 定 字符 集 ， 最 后 再 加 载 数据 。MySQL 在 加 载 


数据 的 时 候 ， 总 是 以 同样 的 字符 集 处 理 所 有 数据 ， 而 不 管 表 中 的 
列 是 否 有 不 同 的 字符 集 设 定 。 


SELECT INTO OUTFILE 


MYySQL 会 将 SELECT INTO OUTFILE 的 结果 不 做 任何 转 码 地 
写 入 文件 。 目 前 ， 除 了 使 用 函数 CONVERTO 将 所 有 的 列 都 做 一 次 
转 码 外 ， 还 没有 什么 别 的 办 法 能 够 指定 输出 的 字符 集 。 


散 入 式 转 义 序列 


MySQL 会 根据 character_set_dlient 的 设置 来 解析 转 义 序列 ， 即 
使 是 字符 串 中 包含 前 缀 或 者 COLLATE 子 句 也 一 样 。 这 是 因为 解析 
器 在 处 理 字 符 串 中 的 转 义 字符 时 ， 完 全 不 关心 校对 规则 一 一 对 解 
析 器 来 说 ， 前 级 并 不 是 一 个 指令 ， 它 只 是 一 个 关键 字 而 已 。 


7.9.2 ”选择 字符 集 和 校对 规则 


MySQL 4.1 和 之 后 的 版 本 支持 很 多 的 字符 集 和 校对 规则 ， 包 括 支 
持 使 用 Unicode 编 码 的 多 字 节 UTF-8 字 符 集 (MySQL 支持 UTF-8 的 一 个 
三 字 节 子 集 ， 这 几乎 可 以 包含 世界 上 的 所 有 字符 集 ) 。 可 以 使 用 命令 
SHOW CHARACTERSET 和 SHOW COLLATION 来 查看 MySQL 支 持 的 
字符 集 和 校对 规则 。 


极 简 原则 


在 一 个 数据 库 中 使 用 多 个 不 同 的 字符 集 是 一 件 很 让 人 头疼 的 事 
情 ， 字 符 集 之 间 的 不 兼容 问题 会 很 难 缠 。 有 时 候 ， 一 切 都 看 起 来 正 
常 ， 但 是 当 某 个 特殊 字符 出 现 的 时 候 ， 所 有 类 型 的 操作 都 可 能 会 
法 进行 (例如 多 表 之 间 的 关联 ) 。 你 可 以 使 用 ALTER TABLE 命 令 
将 对 应 列 转 成 相互 兼容 的 字符 集 ， 还 可 以 使 用 编码 前 缀 和 
COLLATE 子 句 将 对 应 的 列 值 转 成 兼容 的 编码 。 


正确 的 方法 是 ， 最 好 先 为 服务 器 (或 者 数据 库 ) 选择 一 个 合理 
的 字符 集 。 然 后 根据 不 同 的 实际 情况 ， 让 某 些 列 选择 合适 的 字符 
人 


NO 


对 于 校对 规则 通常 需要 考虑 的 一 个 问题 是 ， 是 否 以 大 小 写 敏 感 的 
方式 比较 字符 串 ， 或 者 是 以 字符 串 编 码 的 二 进 制 值 来 比较 大 小 。 它 们 
对 应 的 校对 规则 的 前 缀 分 别 是 _cs、_ci 和 _bin， 根 据 需 要 很 容易 选择 。 
大 小 写 敏感 和 二 进 制 校对 规则 的 不 同 之 处 在 于 ， 二 进 制 校 对 规则 直接 
使 用 字符 的 字 节 进行 比较 ， 而 大 小 写 敏 感 的 校对 规则 在 多 字 节 字符 集 
时 ， 如 德语 ， 有 更 复杂 的 比较 规则 。 


在 显 式 设置 字符 集 的 时 候 ， 并 不 是 必须 同时 指定 字符 集 和 校对 规 
则 的 名 字 。 如 果 缺 失 了 其 中 一 个 或 者 两 个 MySQL 会 使 用 可 能 的 默认 
值 来 进行 填充 。 表 7-2 表 示 了 MySQL 如 何 选择 字符 集 和 校对 规则 。 


表 7-2: MySQL 如 何 选择 字符 集 和 校对 规则 


用 户 设置 返回 结果 的 字符 集 返回 结果 的 校对 规则 
同时 设置 字符 集 | 与 用 户 设 置 相同 与 用 户 设置 


和 校对 规则 | 


与 字符 集 的 默认 校对 
规则 相同 


仅 设 置 字 各 与 用 户 设置 相同 


与 校对 规则 对 应 的 字 
设置 校对 规 见 È 设置 相 后 


都 未 设置 使 用 默认 值 使 用 默认 值 


下 面 的 命令 展示 了 在 创建 数据 库 、 表 、 列 的 时 候 如 何 显 式 地 指定 
字符 集 和 校对 规则 : 


CREATE DATABASE d CHARSET latin1; 
CREATE TABLE d.t( 

coli CHAR(1), 

col2 CHAR(1) CHARSET utf8, 

col3 CHAR(1) COLLATE latini_bin 
) DEFAULT CHARSET=cp1251; 


这 个 表 最 后 的 字符 集 和 校对 规则 如 下 : 


mysql> SHOW FULL COLUMNS FROM d.t; 


+ + 
|Field | Type | Collation | 
+------ +--------- +------------------- 十 
|col1 | char(1) | cp1251 general ci | 
|col2 | char(1) | utf8 general ci | 
|col3 | char(1) | latin1 bin | 
+------ +--------- +------------------- 十 


字符 集 和 校对 规则 如 何 影响 查 


某 些 字符 集 和 校对 规则 可 能 会 需要 更 多 的 CPU 操作 ， 可 能 会 消耗 
更 多 的 内 存 和 存储 空间 ， 甚 至 还 会 影响 索引 的 正常 使 用 。 所 以 在 选择 
字符 集 的 时 候 ， 也 有 一 些 需要 注意 的 地 方 。 


不 同 的 字符 集 和 校对 规则 之 间 的 转换 可 能 会 带 来 额外 的 系统 开 
销 。 例 如 ， 数 据 表 sakila.fiim 在 列 title 上 有 索引 ， 可 以 加 速 下 面 的 
ORDER BY 查询 : 


mysql> EXPLAIN SELECT title, release_year FROM sakila. film 
ORDER BY title\Gmysgql> EXPLAIN SELECT title, release_year FROM 


sakila.film ORDER BY title\G 


ere Te eT ete eee ee eee ee eT 1. row 
FOR TOR IO IO TOR IO ITO TO KK IR IK 
id: 1 
select_type: SIMPLE 
table: film 
type: index 
possible_keys: NULL 
key: idx_title 
key_len: 767 


ref: NULL 


rows: 953 


Extra: 


只 有 排序 查询 要 求 的 字符 集 与 服务 器 数据 的 字符 集 相 同 的 时 候 ， 
才能 使 用 索引 进行 排序 。 索 引 根据 数据 列 的 校对 规则 包 ) 进 行 排序 ， 这 
里 使 用 的 是 utf8_general_ci。 如 果 和 希望 使 用 别 的 校对 规则 进行 排序 ， 那 
么 MySQL 融 需要 使 用 文件 排序 : 


mysql> EXPLAIN SELECT title, release_year 


-> FROM sakila.film ORDER BY title COLLATE utf8_bin\G 


eee ee ee Te ee ee ee eee eT 1. row 
RRO TOR IOI TOK TOR IOI TK TO RK IK 
id: 1 
select_type: SIMPLE 
table: film 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 953 


Extra: Using filesort 


为 了 能 够 适应 各 种 字符 集 ， 包 括 客 户 端 字符 集 、 在 查询 中 显 式 指 
定 的 字符 集 ，MySQL 会 在 需要 的 时 候 进 行 字符 集 转换 。 例 如 ， 当 使 用 
两 个 字符 集 不 同 的 列 来 天 联 两 个 表 的 时 候 ，MySQL 会 尝试 转换 其 中 一 
个 列 的 字符 集 。 这 和 在 数据 列 外 面 封装 一 个 函数 一 样 ， 会 让 MySQL 无 


法 使 用 这 个 列 上 的 索引 。 如 果 你 不 确定 MySQL 内 部 是 否 做 了 这 种 转 
换 ， 可 以 在 EXPLAIN EXTENDED 后 使 用 SHOW WARNINGS 来 查看 
MySQL 是 如 何 处 理 的 。 从 输出 中 可 以 看 到 查询 中 使 用 的 字符 集 ， 也 可 
以 看 出 MySQL 是 否 做 了 字符 集 转换 操作 。 


UTF-8 是 一 种 多 字 节 编码 ， 它 存储 一 个 字符 会 使 用 变 长 的 字 节 数 
(一 到 三 个 字 节 ) 。 在 MySQL 内 部 ， 通 常 使 用 一 个 定 长 的 空间 来 存储 
字符 串 ， 再 进行 相关 操作 ， 这 样 做 的 目的 是 希望 总 是 保证 缓存 中 有 足 
够 的 空间 来 存储 字符 串 。 例 如 ， 一 个 编码 是 UTF-8 的 CHAR(10) 需 要 30 
个 字 节 ， 即 使 最 终 存储 的 时 候 没 有 存储 任何 “多 字 节 ”字符 也 是 一 样 。 
变 长 的 字段 类 型 (VARCHAR TEXT) 存储 在 磁盘 上 时 不 会 有 这 个 困 
扰 ， 但 当 它 存储 在 临时 表 中 用 来 处 理 或 者 排序 时 ， 也 总 是 会 分 配 最 大 
可 能 的 长 度 。 


在 多 字 节 字符 集中 ， 一 个 字符 不 再 是 一 个 字 节 。 所 以 ， 在 MySQL 
中 有 两 个 函数 LENGTHO 和 CHAR_LENGTHO 来 计算 字符 串 的 长 度 ， 
在 多 字 节 字符 集中 ， 这 两 个 函数 的 返回 结果 会 不 同 。 如 果 使 用 的 是 多 
字 节 字符 集 ， 那 么 确保 在 统计 字符 集 的 时 候 使 用 CHAR_LENGTH()。 
(例如 需要 做 SUBSTRINGO 操 作 的 时 候 ) 。 其 实 ， 在 应 用 程序 中 也 同 
样 要 注意 多 字 节 字符 集 的 这 个 问题 。 


另 一 个 “惊喜 ”可 能 是 天 于 索引 限制 方面 的 。 如 果 要 索引 一 个 UTF- 
8 字符 集 的 列 ， MySQL 会 假设 每 一 个 字符 都 是 三 个 字 节 ， 所 以 最 长 索 
引 前缀 的 限制 一 下 缩短 到 原来 的 三 分 之 一 了 : 


mysql> CREATE TABLE big string(str VARCHAR(500), KEY(str)) DEFAULT CHARSET=utf8; 
Query OK, 0 rows affected, 1 warning (0.06 sec) 

mysql> SHOW WARNINGS; 

+ 


--------- +------+---------------------------------------------------------+ 
| Level | Code | Message 

+--------- +------ 二- + 
| Warning | 1071 | Specified key was too long; max key length is 999 bytes | 
+--------- +------ 二- + 


注意 到 ，MySQL 的 索引 前 缀 自动 缩短 到 333 个 字符 了 : 


mysql> SHOW CREATE TABLE big_string\G 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 


ET TTTTTTT TT TTT TTT TTT TTT TT 
Table: big_string 
Create Table: CREATE TABLE ‘big string ( 
Str varchar(500) default NULL, 
KEY “str” (Str (333)) 


) ENGINE=MyISAM DEFAULT CHARSET=utf8 


如 果 你 不 注意 警告 信息 也 没有 再 重新 检查 表 的 定义 ， 可 能 不 会 注 
意 到 这 里 仪 仪 是 在 该 列 的 前 缀 上 建立 了 索引 。 这 会 对 MySQL 使 用 索引 
有 一 些 影 响 ， 例 如 无 法 使 用 索引 履 香 扫描 。 


也 有 人 建议 ， 直 接 使 用 UTF-8 字 符 集 ,“ 整 个 世界 都 清净 了 ”。 不 
过 从 性 能 的 角度 来 看 这 不 是 一 个 好 主意 。 根 据 存储 的 数据 ， 很 多 应 用 
无 须 使 用 UTF-8 字 符 集 ， 如 果 坚 持 使 用 UTF-8， 只 会 消耗 更 多 的 磁盘 空 
间 。 


在 考虑 使 用 什么 字符 集 的 时 候 ， 需 要 根据 存储 的 具体 内 存 来 决 
定 。 例 如 ， 存 储 的 内 容 主要 是 英文 字符 ， 那 么 即使 使 用 UTF-8 也 不 会 
消耗 太 多 的 存储 空间 ， 因 为 英文 字符 在 UTF-8 字 符 集 中 仍然 使 用 一 个 


字 节 。 但 如 果 需 要 存储 一 些 非 拉丁 语系 的 字符 ， 如 俄语 、 阿 拉 伯 语 ， 
那么 区 别 会 很 大 。 如 果 应 用 中 只 需要 存储 阿拉 伯 语 ， 那 么 可 以 使 用 
cp1256 字 符 集 ， 这 个 字符 集 可 以 用 一 个 字 节 表示 所 有 的 阿拉 伯 语 字 
符 。 如 果 还 需要 存储 别 的 语言 ， 那 么 就 应 该 使 用 UTF-8 了 ， 这 时 相同 
的 阿拉 伯 语 字符 会 消耗 更 多 的 空间 。 类 似 地 ， 当 从 某 个 具体 的 语种 编 
码 转换 成 UTF-8 时 ， 存 储 空间 的 使 用 会 相应 增加 。 如 果 使 用 的 是 
InnoDB 表 ， 那 么 字符 集 的 改变 可 能 导致 数据 的 大 小 超过 可 以 在 页 内 存 
储 的 临界 值 ， 需 要 保存 在 额外 的 外 部 存储 区 ， 这 会 导致 很 严重 的 空间 
浪费 ， 还 会 带 来 很 多 空间 碎片 。 


有 时 候 根 本 不 需要 使 用 任何 的 字符 集 。 通 常 只 有 在 做 大 小 写 无 关 
的 比较 、 排 序 、 字 符 串 操作 (例如 SUBSTRING() 的 时 候 才 需 要 使 用 字 
符 集 。 如 果 你 的 数据 库 不 关心 字符 集 ， 那 么 可 以 直接 将 所 有 的 东西 存 
储 到 二 进 制 列 中 ， 包 括 UTF-8 编 码 数据 也 可 以 存储 在 其 中 。 这 么 做 ， 
可 能 还 需要 一 个 列 记 录 字 符 的 编码 集 。 虽 然 很 多 人 一 直 都 是 这 么 用 
的 ， 但 还 是 有 不 少 事项 需要 注意 。 这 会 导致 很 多 难以 排查 的 错误 ， 例 
如 ， 环 记 了 多 个 字 节 才 是 一 个 字符 时 ， 还 继续 使 用 SUBSTRINGO 和 
LENGTHO 做 字符 串 操 作 ， 就 会 出 错 。 如 果 可 能 ， 我 们 建议 尽量 不 要 
这 样 做 。 


7.10 “全文 索引 


通过 数值 比较 、 范 围 过 渡 等 就 可 以 完成 绝 大 多 数 我 们 需要 的 查询 
了 。 但 是 ， 如 果 你 希望 通过 关键 字 的 匹配 来 进行 查询 过 滤 ， 那 么 就 需 
要 基于 相似 度 的 查询 ， 而 不 是 原来 的 精确 数值 比较 。 全 文 索引 就 是 为 
这 种 场景 设计 的 。 


全 文 索引 有 着 自己 独特 的 语法 。 没 有 索引 也 可 以 工作 ， 如 果 有 索 
引 效 率 会 更 高 。 用 于 全 文 搜索 的 索引 有 着 独特 的 结构 ， 帮 助 这 类 查询 
找到 匹配 某 些 关键 字 的 记录 。 


你 可 能 没有 在 意 过 全 文 索 引 ， 不 过 至 少 应 该 对 一 种 全 文 索引 技术 
比较 熟悉 : 互联 网 搜索 引擎 。 虽 然 这 类 搜索 引擎 的 索引 对 象 是 超大 量 
的 数据 ， 并 且 通 党 其 背后 都 不 是 关系 型 数据 库 ， 不 过 全 文 索 引 的 基本 
原理 都 是 一 样 的 。 


全 文 索引 可 以 支持 各 种 字符 内 容 的 搜索 (HE CHAR, 
VARCHAR 和 TEXT 类 型 ) ， 也 支持 自然 语言 搜索 和 布尔 搜索 。 在 
MySQL 中 全 文 索引 有 很 多 的 限制 4)， 其 实现 也 很 复杂 ， 但 是 因为 它 是 
MySQL 内 置 的 功能 ， 而 且 满足 很 多 基本 的 搜索 需求 ， 所 以 它 的 应 用 仍 
然 非 常 广泛 。 本 章 我 们 将 介绍 如 何 使 用 全 文 索引 ， 以 及 如 何 为 应 用 设 
计 更 高 性 能 的 全 文 索引 。 在 本 书 编写 时 ， 在 标准 的 MySQL 中 ， 只 有 
MyISAM5 引 擎 支持 全 文 索引 。 不 过 在 还 没有 正式 发 布 的 MySQL 5.6 
中 ，InnoDB 已 经 实验 性 质地 支持 全 文 索 引 了 。 除 此 ， 还 有 第 三 方 的 存 
储 引 警 ， 如 Groonga， 也 支持 全 文 索引 。 


事实 上 ，MyISAM 对 全 文 索引 的 支持 有 很 多 的 限制 ， 例 如 表 级 别 
锁 对 性 能 的 影响 、 数 据 文件 的 朋 溃 、 骨 溃 后 的 恢复 等 ， 这 使 得 
MyISAM 的 全 文 索引 对 于 很 多 应 用 场景 并 不 合适 。 所 以 ， 多 数 情况 下 
我 们 建议 使 用 别 的 解决 方案 ， 例 如 Sphinx、Lucene、Solr、Groonga、 
Xapian 或 者 Senna， 再 或 者 可 以 等 MySQL 5.6 版 本 正式 发 布 后 ， 直 接 使 
用 InnoDB 的 全 文 索 引 。 如 果 MyISAM 的 全 文 索引 确实 能 满足 应 用 的 需 
求 ， 那 么 可 以 继续 阅读 本 节 。 


MyISAM 的 全 文 索引 作用 对 象 是 一 个 “全 文集 合 "， 这 可 能 是 某 个 
数据 表 的 一 列 ， 也 可 能 是 多 个 列 。 具 体 的 ， 对 数据 表 的 某 一 条 记录 ， 
MySQL 会 将 需要 索引 的 列 全 部 拼接 成 一 个 字符 串 ， 然 后 进行 索引 。 


MyISAM 的 全 文 索引 是 一 类 特殊 的 B-Tree 索 引 ， 共 有 两 层 。 第 一 
层 是 所 有 关键 字 ， 然 后 对 于 每 一 个 关键 字 的 第 二 层 ， 包 含 的 是 一 组 相 
关 的 “文档 指针 ”。 全 文 索引 不 会 索引 文档 对 象 中 的 所 有 词语 ， 它 会 根 
据 如 下 规则 过 滤 一 些 词 语 : 


。 停 用 词 列 表 中 的 词 都 不 会 被 索引 。 默 认 的 停 用 词根 据 通用 类 语 的 
使 用 来 设置 ， 可 以 使 用 参数 ft_stopword_file 指 定 一 组 外 部 文件 来 
使 用 自 定义 的 停 用 词 。 

。 对 于 长 度 大 于 ft_min_word_len 的 词语 和 长 度 小 于 ft_max_word_len 
的 词语 ， 都 不 会 被 索引 1。 


全 文 索引 并 不 会 存储 关键 子 具 体 匹 配 在 哪 一 列 ， 如 果 需 要 根据 不 
同 的 列 来 进行 组 合 查 询 ， 那 么 不 需要 针对 每 一 列 来 建立 多 个 这 类 索 
引 。 


这 也 意味 着 不 能 在 MATCH AGAINST 子 句 中 指定 哪个 列 的 相关 性 
更 重要 。 通 常 构建 一 个 网 站 的 搜索 引擎 是 需要 这 样 的 功能 ， 例 如 ， 你 
可 能 希望 优先 搜索 出 那些 在 标题 中 出 现 过 的 文档 对 象 。 如 果 需 要 这 样 
的 功能 ， 则 需要 编写 更 复杂 的 查询 语句 。 (后 面 将 会 为 大 家 展示 如 何 
实现 。) 


7.10.1 ”自然 语言 的 全 文 索 引 


自然 语言 搜索 引擎 将 计算 每 一 个 文档 对 象 和 查询 的 相关 度 。 这 
里 ， 相 关 度 是 基于 匹配 的 关键 词 个 数 ， 以 及 关键 词 在 文档 中 出 现 的 次 
数 。 在 整个 索引 中 出 现 次 数 越 少 的 词语 ， 匹 配 时 的 相关 度 就 越 高 。 相 
反 ， 非 浊音 见 的 单词 将 不 会 搜索 ， 即 使 不 在 停 用 词 列 表 中 出 现 ， 如 果 
一 个 词语 在 超过 50% 的 记录 中 都 出 现 了 ， 那 么 自然 语言 搜索 将 不 会 搜 
AMR. 


全 文 索引 的 语法 和 普通 查询 略 有 不 同 。 可 以 根据 WHERE 子 句 中 
的 MATCH AGAINST 来 区 分 查询 是 否 使 用 全 文 索引 。 我 们 来 看 一 个 示 
例 。 在 标准 的 数据 库 Sakila 中 ， 数 据 表 film_text 在 字段 title 和 description 
上 建立 了 全 文 索引 : 


mysql> SHOW INDEX FROM sakila.film_ text; 
+ 


----------- +-----------------------+-------------+------------+ 
| Table | Key_name | Column_name | Index type | 
+----------- +----------------------- +------------- +------------ 十 
| ss 

| film text | idx title description | title | FULLTEXT | 
| film text | idx title description | description | FULLTEXT | 
+----------- +----------------------- +------------- +------------ 十 


下 面 是 一 个 使 用 自然 语言 搜索 的 查询 : 


mysql> SELECT film id, title, RIGHT(description, 25), 

-> MATCH(title, description) AGAINST('factory casualties') AS relevance 

-> FROM sakila.film text 

-> WHERE MATCH(title, description) AGAINST('factory casualties'); 
+--------- +----------------------- +--------------------------- +----------------- 十 
| film id | title RIGHT(description, 25) | relevance | 


| 

| 126 | CASUALTIES ENCINO Face a Boy in A Monastery | 5.2615661621094 | 
| 193 | CROSSROADS CASUALTIES | a Composer in The Outback | 5.2072987556458 | 
| 369 | GOODFELLAS SALUTE d Cow in A Baloon Factory | 3.1522686481476 

| 


| 
Pe 
831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 8.4692449569702 | 
| 
| 
| a Dog in A Baloon Factory | 3.1522686481476 | 


451 | IGBY MAKER 


MySQL 将 搜索 词语 分 成 两 个 独立 的 关键 词 进行 搜索 ， 搜 索 在 title 
和 description 字 段 组 成 的 全 文 索引 上 进行 。 注 意 ， 只 有 一 条 记录 同时 包 
含 全 部 的 两 个 关键 词 ， 有 三 个 查询 结果 只 包含 关键 字 “casualties” (这 


是 整个 表 中 仅 有 的 三 条 包含 该 关键 词 的 记录 ) ， 这 三 个 结果 都 在 结果 
列表 的 前 面 。 这 是 因为 查询 结果 是 根据 与 关键 词 的 相似 度 来 进行 排序 
的 。 


ke 4: 
的 时 候 ，MySQL 无 法 再 使 用 索引 排序 。 所 以 如 果 不 想 使 用 文件 排序 的 话 ， 那 么 就 不 要 在 查询 


中 使 用 ORDER BY 子 句 。 


从 上 面 的 示例 可 以 看 到 ， 函 数 MATCHO 将 返回 关键 词 匹配 的 相关 
度 ， 是 一 个 浮 点 数字 。 你 可 以 根据 相关 度 进行 匹配 ， 或 者 将 此 直接 展 
现 给 用 户 。 在 一 个 查询 中 使 用 两 次 MATCHO 函 数 并 不 会 有 额外 的 消 
耗 ，MySQL 会 自动 识别 并 只 进行 一 次 搜索 。 不 过 ， 如 果 你 将 MATCHO 
孙 数 放 到 ORDER BY 子 句 中 ，MySQL 将 会 使 用 文件 排序 。 


在 MATCHO 了 阔 数 中 指定 的 列 必 须 和 在 全 文 索引 中 指定 的 列 完全 相 
同 ， 否 则 就 无 法 使 用 全 文 索 引 。 这 是 因为 全 文 索引 不 会 记录 关键 字 是 
来 目 哪 一 列 的 。 


这 也 意味 着 无 法 使 用 全 文 索引 来 查询 某 个 关键 字 是 否 在 某 一 列 中 
存在 。 这 里 介绍 一 个 绕 过 该 问题 的 办 法 : 根据 关键 词 在 多 个 不 同 列 的 
全 文 索引 上 的 相关 度 来 算出 排名 值 ， 然 后 依 此 来 排序 。 我 们 可 以 在 某 
一 列 上 加 上 如 下 索引 : 


mysql> ALTER TABLE film_text ADD FULLTEXT KEY(title) ; 


这 样 ， 我 们 可 以 将 title 匹 配 乘 以 2 来 提高 它 的 相似 度 的 权重 : 


mysql> SELECT film_id, RIGHT(description, 25), 
-> ROUND(MATCH(title, description) AGAINST('factory casualties’), 3) 
-> AS full_rel, 
-> ROUND(MATCH(title) AGAINST('factory casualties'), 3) AS title_rel 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) AGAINST('factory casualties’) 
-> ORDER BY (2 * MATCH(title) AGAINST('factory casualties’ )) 
-> + MATCH(title, description) anda —s ee ) DESC; 
+ 


| film id | RIGHT(description, 25) full rel | title _ cal | 
+--------- +-------------- ------------ +---------- +----------- 十 
| 831 | a Car in A Baloon Factory 8.469 | 5.676 
| 126 | Face a Boy in A Monastery 5.262 | 5.676 
| 299 | jack in The Sahara Desert 3.056 | 6.751 
| 193 | a Composer in The Outback 5.207 | 5.676 
| 369 | d Cow in A Baloon Factory 3.152 | 0.000 
| 451 | a Dog in A Baloon Factory 3.152 | 0.000 
| 595 | a Cat in A Baloon Factory 3.152 | 0.000 
| 649 | nizer in A Baloon Factory 3.152 | 0.000 


因为 上 面 的 查询 需要 做 文件 排序 ， 所 以 这 并 不 是 一 个 高 效 的 做 
法 。 


7.10.2 ”布尔 全 文 索引 


在 布尔 搜索 中 ， 用 户 可 以 在 查询 中 上 自 定义 某 个 被 搜索 的 词语 的 相 
关 性 。 布 尔 搜 索 通 过 停 用 词 列 表 过 滤 掉 那些 “噪声 * 词 ， 除 此 之 外 ， 布 
尔 搜索 还 要 求 搜索 关键 词 长 度 必 须 大 于 ft_ min _word_len， 同 时 小 于 
ft_max_word_len(! 雹 。 搜 索 返 回 的 结果 是 未 经 排序 的 。 


当 编 写 一 个 布尔 搜索 查询 时 ， 可 以 通过 一 些 前 缀 修饰 符 来 定制 搜 
索 。 表 7-3 列 出 了 最 音 用 的 修饰 符 。 


表 7-3: 布尔 全 文 索引 通用 修饰 符 


Example Meaning 
包含 “dinosaur” 的 行 rank 值 更 高 


m1 


~dinosaur 包含 “dinosaur” 的 行 rank 值 更 低 


| 包含 以 “dino” 开 头 的 单词 的 行 rank 值 更 
ino* 
局 


还 可 以 使 用 其 他 的 操作 ， 例 如 使 用 括号 分 组 。 基 于 此 ， 融 可 以 构 
造 出 一 些 复杂 的 搜索 查询 。 


还 是 继续 用 sakila.film_text 来 举例 ， 现 在 我 们 需要 搜索 既 包 含 词 
“factory” 又 包含 “casualties” 的 记录 。 在 前 面 ， 我 们 已 经 使 用 自然 语言 搜 
索 查 询 实现 找到 这 两 个 词 中 的 任何 一 个 的 SQL 写法 。 使 用 布尔 搜索 查 
询 ， 我 们 可 以 指定 返回 结果 必须 同时 包含 “factory” 和 “casualties”: 


mysql> SELECT film id, title, RIGHT(description, 25) 
-> FROM sakila.film text 
-> WHERE MATCH(title, description) 
-> AGAINST('+factory +casualties' IN BOOLEAN MODE); 


+--------- +--------------------- +--------------------------- + 
| film id | title | RIGHT (description, 25) | 
+--------- +--------------------- +--------------------------- 十 
| 831 | SPIRITED CASUALTIES | a Car in A Baloon Factory | 
+--------- +--------------------- +--------------------------- 十 


查询 中 还 可 以 使 用 括号 进行 “短语 搜索 "， 让 返回 结果 精确 匹配 指 
定 的 短语 : 


mysql> SELECT film_id, title, RIGHT(description, 25) 
-> FROM sakila.film_text 
-> WHERE MATCH(title, description) 
AGAINST('"spirited casualties"' IN BOOLEAN MODE); 


+---------+---------------------}---------------------------+ 
+---------+---------------------+---------------------------+ 


+---------+---------------------+---------------------------+ 


短语 搜索 的 速度 会 比较 慢 。 只 使 用 全 文 索引 是 无 法 判断 是 否 精确 
匹配 短语 的 ， 通 常 还 需要 查询 原文 确定 记录 中 是 否 包含 完整 的 短语 。 
由 于 需要 进行 回 表 过 滤 ， 所 以 速度 会 很 慢 。 


要 完成 上 面 的 查询 ，MySQL 需 要 先 从 索引 中 找 出 所 有 同时 包含 
“spirited” 和 “casualties” 的 索引 条 目 ， 然 后 取出 这 些 记 录 再 判断 是 否 是 
精确 匹配 短语 。 因 为 这 个 操作 会 先 从 索引 中 过 滤 出 一 些 记录 ， 所 以 通 
常 认 为 这 样 做 的 速度 是 很 快 的 一 一 比 LIKE 操 作 要 快 很 多 。 事 实 上 ， 这 
样 做 的 确 很 快 ， 但 是 搜索 的 关键 词 不 能 是 太 常 见 的 词语 。 如 果 搜 索 的 
关键 词 太 常见 ， 因 为 前 一 步 的 过 滤 会 返回 太 多 的 记录 需要 判断 ， 因 此 
LIKE 操 作 反 而 更 快 。 这 种 情况 下 LIKE 操 作 是 完全 的 顺序 读 ， 相 比索 
引 返 回 值 的 随机 读 ， 会 快 很 多 。 


只 有 MyISAM5 引 和 擎 才能 使 用 布尔 全 文 索 引 ， 但 并 不 是 一 定 要 有 全 
文 索引 才能 使 用 布尔 全 文 搜 索 。 当 没有 全 文 索引 的 时 候 ，MySQL 就 通 
过 全 表 扫 描 来 实现 。 所 以 ， 你 甚至 还 可 以 在 多 表 上 使 用 布尔 全 文 索 
引 ， 例 如 在 一 个 关联 结果 上 进行 。 只 不 过 ， 因 为 是 全 表 扫 描 ， 速 度 可 


能 会 很 慢 。 


7.10.3 MySQL 5.1 中 全 文 索引 的 变化 


在 MySQL 5.1 中 引入 了 一 些 和 全 文 索引 相关 的 改进 ， 包 括 一 些 性 
能 上 的 提升 和 新 增 插件 式 的 解析 ， 通 过 此 用 户 可 以 自己 定制 增强 搜索 
功能 。 例 如 ， 插 件 可 以 改变 索引 文本 的 方式 。 可 以 用 更 灵活 的 方式 进 
行 分 词 〈 例 如 ， 可 以 指定 C++ 作为 一 个 单独 的 词语 ) 、 预 处 理 、 可 以 
对 不 同 的 文档 类 型 进行 索引 (如 PDF) ， 还 可 以 做 一 些 自 定义 的 词 干 
规则 。 插 件 还 可 以 直接 影响 全 文 搜索 的 工作 方式 一 一 例如 ， 直 接 使 用 
词 干 进 行 搜索 。 


7.10.4 全文 索 引 的 限制 和 蔡 代 方案 


MySQL 的 全 文 索 引 实现 有 很 多 的 设计 本 身 带 来 的 限制 。 在 某 些 场 
景 下 这 些 限制 是 致命 的 ， 不 过 也 有 很 多 办 法 绕 过 这 些 限制 。 


例如 ，MySQL 全 文 索 引 中 只 有 一 种 判断 相关 性 的 方法 : 词 频 。 索 
引 也 不 会 记录 索引 词 在 字符 串 中 的 位 置 ， 所 以 位 置 也 就 无 法 用 在 相关 
性 上 。 昌 然 大 多 数 情况 下 ， 尤 其 是 数据 量 很 小 的 时 候 ， 这 些 限 制 都 不 
会 影响 使 用 ， 但 也 可 能 不 是 你 所 想 要 的 。 而 且 MySQL 的 全 文 索引 也 没 
有 提供 其 他 可 选 的 相关 性 排序 算法 。 〈 它 无 法 存储 基于 相对 位 置 的 相 
关 性 排序 数据 。) 


数据 量 的 大 小 也 是 一 个 问题 。MySQL 的 全 文 索 引 只 有 全 部 在 内 存 
中 的 时 候 ， 性 能 才 非 常 好 。 如 果 内 存 无 法 装载 全 部 索引 ， 那 么 搜索 速 
度 可 能 会 非常 慢 。 当 你 使 用 精确 短语 搜索 时 ， 想 要 好 的 性 能 ， 数 据 和 
索引 都 需要 在 内 存 中 。 相 比 其 他 的 索引 类 型 ， 当 INSERT、UPDATE 和 
DELETE 操 作 进行 时 ， 人 全文 索引 的 操作 代价 都 很 大 : 


修改 一 段 文 本 中 的 100 个 单词 ， 需 要 100 次 索引 操作 ， 而 不 是 一 
次 。 

一 般 来 说 列 长 度 并 不 会 太 影响 其 他 的 索引 类 型 ， 但 是 如 果 是 全 文 
索引 ， 三 个 单词 的 文本 和 10000 个 单词 的 文本 ， 性 能 可 能 会 相差 几 
个 数量 级 。 

全 文 索引 会 有 更 多 的 人 碎片， 可 能 需要 做 更 多 的 OPTIMIZE TABLE 
操作 。 


全 文 索引 还 会 影响 查询 优化 器 的 工作 。 索 引 选 择 、WHERE 子 
ORDER BY 都 有 可 能 不 是 按照 你 所 预想 的 方式 来 工作 : 


a 


如 果 查 询 中 使 用 了 MATCH AGAINST 子 句 ， 而 对 应 列 上 又 有 可 用 
的 全 文 索引 ， 那 么 MySQL 就 一 定 会 使 用 这 个 全 文 索引 。 这 时 ， 即 
使 有 其 他 的 索引 可 以 使 用 ，MySQL 也 不 会 去 比较 到 底 哪 个 索引 的 
性 能 更 好 。 所 以 ， 即 使 这 时 有 更 合适 的 索引 可 以 使 用 ， MySQL 仍 
然 会 置之不理 。 

全 文 索 引 只 能 用 作 全 文 搜索 匹配 。 任 何其 他 操作 ， 如 WHERE 条 
件 比较 ， 都 必须 在 MySQL 完 成 全 文 搜索 返回 记录 后 才能 进行 。 这 
和 其 他 普通 索引 不 同 ， 例 如 ， 在 处 理 WHERE 条 件 时 ，MySQL 可 
以 使 用 普通 索引 一 次 判断 多 个 比较 表达 式 。 

全 文 索 引 不 存储 索引 列 的 实际 值 。 也 就 不 可 能 用 作 索 引 和 覆盖 扫 
田 o 

除了 相关 性 排序 ， 全 文 索 引 不 能 用 作 其 他 的 排序 。 如 果 查 询 需 要 
做 相关 性 以 外 的 排序 操作 ， 都 需要 使 用 文件 排序 。 


让 我 们 看 看 这 些 限制 如 何 影 响 查 询 语句 。 来 看 一 个 例子 ， 假 设 有 
一 百 万 个 文档 记录 ， 在 文档 的 作者 author 字 段 上 有 一 个 普通 的 索引 ， 
在 文档 内 容 字 段 content 上 有 全 文 索 引 。 现 在 我 们 要 搜索 作者 是 123， 文 


档 中 又 包含 特定 词语 的 文档 。 很 多 人 可 能 会 按照 下 面 的 方式 来 写 查询 
语句 : 


. WHERE MATCH(content) AGAINST ('High Performance MYSQL ) 


AND author = 123; 


而 实际 上 上， 这样 做 的 效率 非常 低 。 因 为 这 里 使 用 了 MAICH 
AGAINST， 而 且 恰 好 上 面 有 全 文 索引 ， 所 以 MySQL 优 先 选择 使 用 全 
文 索 引 ， 即 先 搜 索 所 有 的 文档 ， 查 找 是 否 有 包含 关键 词 的 文档 ， 然 后 
返回 记录 看 看 作者 是 否 是 123。 所 以 这 里 也 就 没有 使 用 author 字 段 上 的 
索引 。 


一 个 替代 方案 是 将 author 列 包含 到 全 文 索引 中 。 可 以 在 author 列 的 
值 前 面 附 上 一 个 不 常见 的 前 级 ， 然 后 将 这 个 带 前 缀 的 值 存放 到 一 个 单 
独 的 filters 列 中 ， 并 单独 维护 该 列 (也 许可 以 使 用 触发 器 来 做 维护 工 
fE) -a 


这 样 就 可 以 扩展 全 文 索引 ， 使 其 包含 filters 列 ， 上 面 的 查询 就 可 以 
改写 为 : 


. WHERE MATCH(content, filters) 
AGAINST ('High Performance MySQL +author_id_123' IN 
BOOLEAN MODE); 


这 个 案例 中 ， 如 果 author 列 的 选择 性 非常 高 ， 那 么 MySQL 能 够 根 
据 作者 信息 很 快 地 将 需要 过 滤 的 文档 记录 限制 在 一 个 很 小 的 范围 内 ， 


这 个 查询 的 效率 也 就 会 非常 好 。 如 果 author 列 的 选择 性 很 低 ， 那 么 这 
个 替代 方案 的 效率 会 比 前 面 那个 更 糟 ， 所 以 使 用 的 时 候 要 诅 慎 。 


全 文 索引 有 时 候 还 可 以 实现 一 些 简 单 的 “边框 > 搜索。 例如 ， 希 望 
搜索 某 个 坐标 范围 时 ， 将 坐标 按 某 种 方式 转换 成 文本 再 进行 全 文 索 
引 。 假 设 某 条 记录 的 坐标 为 X=123 和 Y=456。 可 以 按照 这 样 的 方式 交 
错 存储 坐标 : XY142536， 然 后 对 此 进行 全 文 索引 。 这 时 ， 和 希望 查询 某 
和 矩形 一 -X 取 值 100 至 199，Y 取 值 400 至 499 -范围 时 ， 可 以 在 查询 直 
接 搜索 “+XY14*”。 这 比 使 用 WHERE 条 件 过 滤 的 效率 要 高 很 多 。 


全 文 索引 的 另 一 个 常用 技巧 是 缓存 全 文 索引 返回 的 主键 值 ， 这 在 
分 页 显示 的 时 候 经 常 使 用 。 当 应 用 程序 真 的 需要 输出 结果 时 ， 才 通过 
主键 值 将 所 有 需要 的 数据 返回 。 这 个 查询 就 可 以 自由 地 使 用 其 他 索 
引 、 或 者 自由 地 关联 其 他 表 。 


虽然 只 有 MyISAM 表 支持 全 文 索 引 ， 但 是 如 果 仍 然 希 望 使 用 
InnoDB 或 其 他 引擎， 可 以 将 原 表 复制 到 一 个 备 库 ， 再 将 备 库 上 的 表 改 
成 MyISAM 并 建 上 相应 的 全 文 索引 。 如 果 不 希 望 在 另 一 个 服务 器 上 完 
成 查询 ， 还 可 以 对 表 进 行 垂 直 拆 分 ， 将 需要 索引 的 列 放 到 一 个 单独 的 
MyISAM 表 中 。 


将 需要 索引 的 列 额外 地 元 余 在 另 一 个 MyISAM 表 中 也 是 一 个 办 
法 。 在 测试 库 中 sakila.film_text 就 是 使 用 这 个 策略 ， 这 里 使 用 触发 器 来 
维护 这 个 表 的 数据 。 最 后 ， 你 还 可 以 使 用 一 个 包含 内 置 全 文 索引 的 5 
擎 ， 如 Lucene 或 者 Sphinx。 更 多 关于 Shpinx 的 内 容 请 参考 附录 F。 


因为 使 用 全 文 索引 的 时 候 ， 通 常会 返回 大 量 结果 并 产生 大 量 随机 
IO， 如 果 和 GROUP BY 一 起 使 用 的 话 ， 还 需要 通过 临时 表 或 者 文件 排 


序 进 行 分 组 ， 性 能 会 非常 非常 糟糕 。 这 类 查询 通 单 只 是 希望 查询 分 组 
后 的 前 几 名 结果 ， 所 以 一 个 有 效 的 优化 方法 是 对 结果 集 进 行 抽样 而 不 
是 精确 计算 。 例 如 ， 仅 查询 前 面 的 1000 条 记录 ， 进 行 分 组 并 返回 前 几 
名 的 结果 。 


7.10.5 “全文 索 引 的 配置 和 优化 


全 文 索引 的 日 常 维护 通常 能 够 大 大 提升 性 能 。“ 双 B-Tree” 的 特殊 
结构 、 在 某 些 文档 中 比 其 他 文档 要 包含 多 得 多 的 关键 字 ， 这 都 使 得 全 
文 索 引 比 起 普通 索引 有 更 多 的 碎片 问题 。 所 以 需要 经 常 使 用 
OPTIMIZE TABLE 来 减少 碎片 。 如 果 应 用 是 IO 密集 型 的 ， 那 么 定期 地 
进行 全 文 索引 重建 可 以 让 性 能 提升 很 多 。 


如 果 和 希望 全 文 索引 能 够 高 效 地 工作 ， 还 需要 保证 索引 缓存 足够 
大 ， 从 而 保证 所 有 的 全 文 索引 都 能 够 缓存 在 内 存 中 。 通 单 ， 可 以 为 全 
文 索引 设置 单独 的 键 缓存 (Key cache) ， 保 证 不 会 被 其 他 的 索引 缓存 
挤 出 内 存 。 键 缓存 的 配置 和 使 用 可 以 参考 第 8 章 。 


提供 一 个 好 的 集 用 词 表 也 很 重要 。 默 认 的 信用 词 表 对 弟 用 美语 来 
说 可 能 还 不 错 ， 但 是 如 果 是 其 他 语言 或 者 某 些 专业 文档 就 不 合适 了 ， 
例如 技术 文档 。 例 如 ， 若 要 索引 一 批 MySQL 相 关 的 文档 ， 那 么 最 好 将 
mysql 放 入 停 用 词 表 ， 因 为 在 这 类 文档 中 ， 这 个 词 会 出 现 得 非常 频繁 。 


忽略 一 些 太 短 的 单词 也 可 以 提升 全 文 索 引 的 效率 。 索 引 单 词 的 最 
小 长 度 可 以 通过 参数 ft_ min_ word_len 配 置 。 修 改 该 参数 可 以 过 滤 更 多 
的 单词 ， 让 查询 速度 更 快 ， 但 是 也 会 降低 精确 度 。 还 需要 注意 一 些 特 
殊 的 场景 ， 有 时 确实 需要 索引 某 些 非常 短 的 词语 。 例 如 ， 对 一 个 电子 


消费 品 文档 进行 索引 ， 除 非 我 们 允许 对 很 短 的 单词 进行 索引 ， 否 则 搜 
索 “cd player” 可 能 会 返回 大 量 的 结果 。 因 为 单词 “cd” 比 默认 允许 的 最 短 
长 度 4 还 要 小 ， 所 以 这 里 只 会 对 “Player” 进 行 搜索 ， 而 通常 搜索 “cd 
player” 的 客户 ， 其 实 对 MP3 或 者 DVD 播 放 器 并 不 感 兴趣 


停 用 词 表 和 人 允许 最 小 词 长 都 可 以 通过 减少 索引 词语 来 提升 全 文 索 

引 的 效率 ， 但 是 同时 也 会 降低 搜索 的 精确 度 。 这 需要 根据 实际 的 应 用 

场景 找到 合适 的 平衡 点 。 如 果 你 希望 同时 获得 好 的 性 能 和 好 的 搜索 质 

量 ， 那 么 需要 自己 定制 这 些 参数 。 一 个 好 的 办 法 是 通过 日 志 系 统 来 研 

究 用 户 的 搜索 行为 ， 看 看 一 些 异常 的 查询 ， 包 括 没 有 结果 返回 的 查询 

或 者 返回 过 多 结果 的 用 户 查询 。 通 过 这 些 用 户 行为 和 被 搜索 的 内 容 来 
判断 应 该 如 何 调整 索引 策略 。 


需要; 主意 ， 当 调整 “允许 最 小 词 长 "后 ， 需 要 通过 OPTIMIZE TABLE 来 重建 索引 | 才 


| 
ts 
会 生效 。 另 一 个 参数 ft_ max word len 和 该 参数 行为 类 似 ， 它 限制 了 允许 索引 的 最 大 词 长 。 


当 向 一 个 有 全 文 索引 的 表 中 导入 大 量 数据 的 时 候 ， 最 好 先 通过 命 
令 DISABLE KEYS 来 禁用 全 文 索 引 ， 然 后 在 导入 结束 后 使 用 ENABLE 
KYES 来 建立 全 文 索引 。 因 为 全 文 索引 的 更 新 是 一 个 消耗 很 大 的 操 
作 ， 所 以 上 面 的 细节 会 帮 你 节省 大 量 时 间 。 另 外 ， 这 样 还 顺便 为 全 文 
索引 做 了 一 次 碎片 整理 工作 。 


如 果 数 据 集 特别 大 ， 则 需要 对 数据 进行 手动 分 区 ， 然 后 将 数据 分 
布 到 不 同 的 节点 ， 再 做 并 行 的 搜索 。 这 是 一 个 复杂 的 工作 ， 最 好 通过 
一 些 外 部 的 搜索 引擎 来 实现 ， 如 Lucene 或 者 Sphinx。 我 们 的 经 验 显示 
这 样 做 性 能 会 有 指数 级 的 提升 。 


7.11 分 布 式 (XA) 事务 


存储 引擎 的 事务 特性 能 够 保证 在 存储 引擎 级 别 实现 ACID (参考 前 
面 介 绍 的 “事务 *) ， 而 分 布 式 事务 则 让 存储 引擎 级 别 的 ACID 可 以 扩展 
到 数据 库 层 面 ， 甚 至 可 以 扩展 到 多 个 数据 库 之 间 一 一 这 需要 通过 两 阶 
段 提 交 实 现 。MySQL 5.0 和 更 新 版 本 的 数据 库 已 经 开始 支持 XA 事务 
了 。 


XA 事务 中 需要 有 一 个 事务 协调 器 来 保证 所 有 的 事务 参与 者 都 完成 
了 准备 工作 (第 一 阶段 )。 如 果 协 调 器 收 到 所 有 的 参与 者 都 准备 好 的 
消息 ， 就 会 告诉 所 有 的 事务 可 以 提交 了 ， 这 是 第 二 阶段 。MySQL 在 这 
个 XA 事 务 过 程 中 扮演 一 个 参与 者 的 角色 ， 而 不 是 协调 者 。 


实际 上 ， 在 MySQL 中 有 两 种 XA 事务 。 一 方面 ，MySQL 可 以 参与 
到 外 部 的 分 布 式 事务 中 ; 另 一 方面 ， 还 可 以 通过 XA 事务 来 协调 存储 引 
稳 和 二 进 制 日 志 。 


7.11.1 ”内 部 XA 事务 


MySQL 本 身 的 插件 式 架构 导致 在 其 内 部 需要 使 用 XA 事务 。 
MySQL 中 各 个 存储 引擎 是 完全 独立 的 ， 彼 此 不 知道 对 方 的 存在 ， 所 以 
一 个 跨 存 储 引 擎 的 事务 就 需要 一 个 外 部 的 协调 者 。 如 果 不 使 用 XA 协 
议 ， 例 如 ， 跨 存储 引擎 的 事务 提交 就 只 是 顺序 地 要 求 每 个 存储 引擎 各 
自 提 交 。 如 果 在 某 个 存储 提交 过 程 中 发 生 系统 骨 溃 ， 就 会 破坏 事务 的 
特性 (要么 就 全 部 提交 ， 要 么 就 不 做 任何 操作 ) o 


如 果 将 MySQL 记 录 的 二 进 制 日 志 操 作 看 作 一 个 独立 的 “存储 5| 
向"， 就 不 难 理解 为 什么 即使 是 一 个 存储 引擎 参与 的 事务 仍然 需要 XA 
事务 了 。 在 存储 引擎 提交 的 同时 ， 需 要 将 “提交 ”的 信息 写 入 二 进 制 日 
志 ， 这 就 是 一 个 分 布 式 事务 ， 只 不 过 二 进 制 日 志 的 参与 者 是 MySQL 本 
身 。 


XA 事 务 为 MySQL 带 来 巨大 的 性 能 下 降 。 从 MySQL 5.0 开 始 ， 它 破 
坏 了 MySQL 内 部 的 “批量 提交 ”一 种 通过 单 磁盘 IO 操作 完成 多 个 事务 
提交 的 技术 ) ， 使 得 MySQL 不 得 不 进行 多 次 额外 的 fsyncO 调 用 必 )。 具 
体 的 ， 一 个 事务 如 果 开 局 了 二 进 制 日 志 ， 则 不 仅 需 要 对 二 进 制 日 志 进 
行 持久 化 操作 ，InnoDB 事 务 日 志 还 需要 两 次 日 志 持 久 化 操作 。 换 句 话 
说 ， 如 果 希 望 有 二 进 制 日 志 安 全 的 事务 实现 ， 则 至 少 需要 做 三 次 
fsync0O 操 作 。 唯 一 避免 这 个 问题 的 办 法 就 是 关闭 二 进 制 日 志 ， 并 将 
innodb_support_xa 设 置 为 0(18)。 


但 这 样 的 设置 是 非常 不 安全 的 ， 而 且 这 会 导致 MySQL 复 制 也 没 法 
正常 工作 。 复 制 需 要 二 进 制 日 志和 XA 事务 的 支持 ， 另 外 一 一 如 果 希 望 
数据 尽 可 能 安全 一 一 最 好 还 要 将 sync_binlog 设 置 成 1， 这 时 存储 引擎 和 
二 进 制 日 志 才 是 真正 同步 的 。 (否则 ，XA 事 务 支持 就 没有 意义 了 ， 
为 事务 提交 了 二 进 制 日 志 却 可 能 没有 “提交 ”到 磁盘 。) 这 也 是 为 什么 
我 们 强烈 建议 使 用 带电 闻 保 护 的 RAID 卡 写 缓存 : 这 个 缓存 可 以 大 大 加 
快 fsyncO 操 作 的 效率 。 


下 一 章 我 们 将 更 进一步 地 介绍 如 何 配置 事务 日 志和 二 进 制 日 志 。 


7.11.2 ”外 部 XA 事务 


MySQL 能 够 作为 参与 者 完成 一 个 外 部 的 分 布 式 事务 。 但 它 对 XA 
协议 支持 并 不 完整 ， 例 如 ，XA 协 议 要 求 在 一 个 事务 中 的 多 个 连接 可 以 
做 关联 ， 但 目前 的 MySQL 版 本 还 不 能 支持 。 


因为 通信 延迟 和 参与 者 本 身 可 能 失败 ， 所 以 外 部 XA 事 务 比 内 部 消 
耗 会 更 大 。 如 果 在 广域网 中 使 用 XA 事 务 ， 通 常会 因为 不 可 预测 的 网 络 
性 能 导致 事务 失败 。 如 果 有 太 多 不 可 控 因 素 ， 例 如 ， 不 稳定 的 网 络 通 
信 或 者 用 户 长 时 间 地 等 待 而 不 提交 ， 则 最 好 避免 使 用 XA 事 务 。 任 何 可 
能 让 事务 提交 发 生 延 迟 的 操作 代价 都 很 大 ， 因 为 它 影响 的 不 仅仅 是 自 
己 本 身 ， 它 还 会 让 所 有 参与 者 都 在 等 待 。 


通常 ， 还 可 以 使 用 别 的 方式 实现 高 性 能 的 分 布 式 事务 。 例 如 ， 可 
以 在 本 地 写 入 数据 ， 并 将 其 放 入 队列 ， 然 后 在 一 个 更 小 、 更 快 的 事务 
中 目 动 分 发 。 还 可 以 使 用 MySQL 本 身 的 复制 机 制 来 发 送 数据 。 我 们 看 
到 很 多 应 用 程序 都 可 以 完全 避免 使 用 分 布 式 事务 。 


也 就 是 说 ，XA 事 务 是 一 种 在 多 个 服务 器 之 间 同 步 数 据 的 方法 。 如 
果 由 于 某 些 原因 不 能 使 用 MySQL 本 身 的 复制 ， 或 者 性 能 并 不 是 瓶颈 的 
时 候 ， 可 以 尝试 使 用 。 


7.12 ”查询 缓存 


很 多 数据 库 产品 都 能 够 缓存 查询 的 执行 计划 ， 对 于 相同 类 型 的 
SQL 就 可 以 跳 过 SQL 解析 和 执行 计划 生成 阶段 。MySQL 在 某 些 场景 下 
也 可 以 实现 ， 但 是 MySQL 还 有 另 一 种 不 同 的 缓存 类 型 : 缓存 完整 的 
SELECT 查询 结果 ， 也 就 是 “查询 缓存 ”。 本 节 将 详细 介绍 这 类 缓存 。 


MySQL 查 询 缓存 保存 查询 返回 的 完整 结果 。 当 查询 命中 该 缓存 ， 
MySQL 会 立刻 返回 结果 ， 跳 过 了 解析 、 优 化 和 执行 阶段 。 


查询 缓存 系统 会 跟踪 查询 中 涉及 的 每 个 表 ， 如 果 这 些 表 发 生变 
化 ， 那 么 和 这 个 表 相 关 的 所 有 的 缓存 数据 都 将 失效 。 这 种 机 制 效率 看 
起 来 比较 低 ， 因 为 数据 表 变 化 时 很 有 可 能 对 应 的 查询 结果 并 没有 变 
更 ， 但 是 这 种 简单 实现 代价 很 小 ， 而 这 点 对 于 一 个 非常 繁忙 的 系统 来 
说 非 党 重要 。 


查询 缓存 对 应 用 程序 是 完全 透明 的 。 应 用 程序 无 须 关 心 MySQL 是 
通过 查询 缓存 返回 的 结果 还 是 实际 执行 返回 的 结果 。 事 实 上 ， 这 两 种 
方式 执行 的 结果 是 完全 相同 的 。 换 句 话 说， 查询 缓存 无 须 使 用 任何 语 
法 。 无 论 是 MySQL 开 启 或 关闭 查询 缓存 ， 对 应 用 程序 都 是 透明 的 (12。 


随 着 现在 的 通用 服务 器 越 来 越 强大 ， 查 询 缓 存 被 发 现 是 一 个 影响 
服务 器 扩展 性 的 因素 。 它 可 能 成 为 整个 服务 器 的 资源 竞争 单 点 ， 在 多 
核 服务 器 上 还 可 能 导致 服务 器 僵 死 。 后 面 我们 将 详细 介绍 如 何 配合 查 
询 缓存 ， 但 是 很 多 时 候 我 们 还 是 认为 应 该 默认 关闭 查询 缓存 ， 如 果 碍 
询 缓存 作用 很 大 的 话 ， 那 就 配置 一 个 很 小 的 查询 缓存 空间 COLT 
兆 ) 。 后 面 我 们 将 解释 如 何 判 断 在 你 的 系统 压力 下 打开 查询 缓存 是 否 
有 好 处 。 


7.12.1 MySQL 如 何 判 断 缓存 命中 


MySQL 判 断 缓存 命中 的 方法 很 简单 : 缓存 存放 在 一 个 引用 表 中 ， 
通过 一 个 哈 希 值 引 用 ， 这 个 哈 希 值 包括 了 如 下 因素 ， 即 查询 本 身 、 当 


前 要 查询 的 数据 库 、 客 户 端 协议 的 版 本 等 一 些 其 他 可 能 会 影响 返回 结 
果 的 信息 。 


当 判 断 缓存 是 否 命中 时 ，MySQL 不 会 解析 、“ 正 规 化 ”或 者 参数 化 
查询 语句 ， 而 是 直接 使 用 SQL 语句 和 客户 端 发 送 过 来 的 其 他 原始 信 
息 。 任 何 字符 上 的 不 同 ， 例 如 空格 、 注 释 一 一 任何 的 不 同一 一 都 会 导 
致 缓存 的 不 命中 。 色 所 以 在 编写 SQL 语句 的 时 候 ， 需 要 特别 注意 这 
氮 。 通 单 使 用 统一 的 编码 规则 是 一 个 好 的 习惯 ， 在 这 里 这 个 好 习惯 会 
让 你 的 系统 运行 得 更 快 。 


当 查 询 语句 中 有 一 些 不 确定 的 数据 时 ， 则 不 会 被 缓存 。 例 如 包含 
函数 NOW0 或 者 CURRENT_DATEO0O 的 查询 不 会 被 缓存 。 类 似 的 ， 包 含 
CURRENT_USER 或 者 CONNECTION_ID() 的 查询 语句 因为 会 根据 不 同 
的 用 户 返 回 不 同 的 结果 ， 所 以 也 不 会 被 缓存 。 事 实 上 ， 如 果 查 询 中 包 
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系统 表 ， 或 者 任何 包含 列 级 别 权 限 的 表 ， 都 不 会 被 缓存 。 (如 果 想 知 
道 所 有 情况 ， 建 议 阅读 MySQL 官 方 手册。 ) 


我 们 常 听 到 : “如果 查询 中 包含 一 个 不 确定 的 玉 数 ，MySQL 则 不 
会 检查 查询 缓存 ”。 这 个 说 法 是 不 正确 的 。 因 为 在 检查 查询 缓存 的 时 
候 ， 还 没有 解析 SQL 语句 ， 所 以 MySQL 并 不 知道 查询 语句 中 是 否 包含 
这 类 函数 。 在 检查 查询 缓存 之 前 ，MySQL 只 做 一 件 事情 ， 就 是 通过 一 
个 大 小 写 不 敏感 的 检查 看 看 SQL 语句 是 不 是 以 SEL 开 头 。 


准确 的 说 法 应 该 是 :“ 如 果 查 询 语句 中 包含 任何 的 不 确定 函数 ， 那 
么 在 查询 缓存 中 是 不 可 能 找到 缓存 结果 的 ”。 因 为 即使 之 前 刚刚 执行 了 
这 样 的 查询 ， 结 果 也 不 会 放 在 查询 缓存 中 。MySQL 在 任何 时 候 只 要 发 
现 不 能 衫 缓存 的 部 分 ， 融 会 茶 止 这 个 查询 被 缓存 。 


所 以 ， 如 果 希 望 换 成 一 个 带 日 期 的 查询 ， 那 么 最 好 将 日 期 提前 计 
算 好 ， 而 不 要 直接 使 用 函数 。 例 如 : 


DATE_SUB(CURRENT_DATE, INTERVAL 1 DAY) -- Not 
cacheable! 


. DATE_SUB('2007-07-14', INTERVAL 1 DAY) -- Cacheable 


因为 查询 缓存 是 在 完整 的 SELECT 语句 基础 上 的 ， 而 且 只 是 在 刚 
收 到 SQL 语句 的 时 候 才 检查 ， 所 以 子 查询 和 存储 过 程 都 没 办 法 使 用 查 
询 缓存 。 在 MySQL 5.1 之 前 的 版 本 中 ， 绑 定 变 量 也 无 法 使 用 查询 缓 
存 。 


MySQL 的 碍 询 缓存 在 很 多 时 候 可 以 提升 查询 性 能 ， 在 使 用 的 时 
候 ， 有 一 些 问题 需要 特别 注意 。 首 先 ， 打 开 碍 询 缓存 对 读 和 写 操作 都 
会 市 来 额外 的 消耗 : 


。 读 查 询 在 开始 之 前 必须 先 检查 是 否 命中 缓存 。 

。 如 果 这 个 读 查 询 可 以 被 缓存 ， 那 么 当 完 成 执行 后 ，MySQL 若 发 现 
查询 缓存 中 没有 这 个 查询 ， 会 将 其 结果 存 入 查询 缓存 ， 这 会 带 来 
额外 的 系统 消耗 。 

这 对 写 操 作 也 会 有 影响 ， 因 为 当 向 某 个 表 写 入 数据 的 时 候 ， 
MySQL 必 须 将 对 应 表 的 所 有 缓存 都 设置 失效 。 如 果 查 询 缓存 非常 
大 或 者 碎片 很 多 ， 这 个 操作 就 可 能 会 党 来 很 大 系统 消耗 (设置 了 
很 多 的 内 存 给 查询 缓存 用 的 时 候 ) 。 


虽然 如 此 ， 查 询 缓 存 仍 然 可 能 给 系统 带 来 性 能 提升 。 但 是 ， 如 上 
所 述 ， 这 些 额 外 消耗 也 可 能 不 断 增加 ， 再 加 上 对 查询 缓存 操作 是 一 个 


加 锁 排 他 操作 ， 这 个 消耗 可 能 不 容 小 虎 。 


对 InnoDB 用 户 来 说 ， 事 务 的 一 些 特性 会 限制 查询 缓存 的 使 用 。 当 
一 个 语句 在 事务 中 修改 了 某 个 表 ，MySQL 会 将 这 个 表 的 对 应 的 查询 缓 
存 都 设置 失效 ， 而 事实 上 ，InnoDB 的 多 版 本 特性 会 暂时 将 这 个 修改 对 
其 他 事务 屏 节 。 在 这 个 事务 提交 之 前 ， 这 个 表 的 相关 查询 是 无 法 被 组 
存 的 ， 所 以 所 有 在 这 个 表 上 面 的 查询 一 一 内 部 或 外 部 的 事务 一 一 都 只 
能 在 该 事务 提交 后 才 被 缓存 。 因 此 ， 长 时 间 运 行 的 事务 ， 会 大 大 降低 
查询 缓存 的 命中 率 。 


如 果 碍 询 缓 存 使 用 了 很 大 量 的 内 存 ， 缓 存 失效 操作 就 可 能 成 为 一 
个 非 单 严重 的 问题 瓶颈 。 如 果 缓 存 中 存放 了 大 量 的 碍 询 结果 ， 那 么 缓 
存 失效 操作 时 整个 系统 都 可 能 会 僵 死 一 会 儿 。 因 为 这 个 操作 是 靠 一 个 
全 局 锁 操 作 保护 的 ， 所 有 需要 做 该 操作 的 查询 都 要 等 待 这 个 锁 ， 而 且 
无 论 是 检测 是 否 命 中 缓存 、 还 是 缓存 失效 检测 都 需要 等 待 这 个 全 局 
锁 。 第 3 章 中 有 一 个 真实 的 案例 ， 为 大 家 展示 查询 缓存 过 大 时 带 来 的 系 
统 消耗 。 


7.12.2 ”查询 缓存 如 何 使 用 内 存 


查询 缓存 是 完全 存储 在 内 存 中 的 ， 所 以 在 配置 和 使 用 它 之 前 ， 我 
们 需要 先 了 解 它 是 如 何 使 用 内 存 的 。 除 了 查询 结果 之 外 ， 需 要 缓存 的 
还 有 很 多 别 的 维护 相关 的 数据 。 这 和 文件 系统 有 些 类 似 : 需要 一 些 内 
存 专门 用 来 确定 哪些 内 存 目 前 是 可 用 的 、 哪 些 是 已 经 用 掉 的 、 哪 些 用 
来 存储 数据 表 和 查询 结果 之 前 的 映射 、 哪 些 用 来 存储 查询 字符 串 和 查 
询 结 果 。 


这 些 基 本 的 管理 维护 数据 结构 大 概 需要 40KB 的 内 存 资源 ， 除 此 之 
外 ，MySQL 用 于 查询 缓存 的 内 存 被 分 成 一 个 个 的 数据 块 ， 数 据 块 是 变 
长 的 。 每 一 个 数据 块 中 ， 存 储 了 目 己 的 类 型 、 大 小 和 存储 的 数据 本 
身 ， 还 外 加 指向 前 一 个 和 后 一 个 数据 块 的 指针 。 数 据 块 的 类 型 有 : F 
储 查询 结果 、 存 储 查 询 和 数据 表 的 上 映射、 存储 查询 文本 ， 等 等 。 不 同 
的 存储 块 ， 在 内 存 使 用 上 并 没有 什么 不 同 ， 从 用 户 角 度 来 看 无 须 区 分 


它们 。 


当 服 务 器 启动 的 时 候 ， 它 先 初 始 化 查询 缓存 需要 的 内 存 。 这 个 内 
存 闻 初始 是 一 个 完整 的 空 闪 块 。 这 个 空 内 块 的 大 小 就 是 你 所 配置 的 查 
询 缓存 大 小 再 减 去 用 于 维护 元 效 据 的 数据 结构 所 消耗 的 空间 。 


当 有 查询 结果 需要 缓存 的 时 候 ，MySQL 先 从 大 的 空间 块 中 申请 一 
个 数据 块 用 于 存储 结果 。 这 个 数据 块 需要 大 于 参数 
query_cache_min_res_unit 的 配置 ， 即 使 查询 结果 远 远 小 于 此 ， 仍 需要 
至 少 申 请 query_cache_min_res_unit 空 间 。 因 为 需要 在 查询 开始 返回 结 
果 的 时 候 就 分 配 空间 ， 而 此 时 是 无 法 预知 查询 结果 到 底 多 大 的 ， 所 以 
MySQL 无 法 为 每 一 个 查询 结果 精确 分 配 大 小 恰好 匹配 的 缓存 空间 。 


因为 需要 先 锁 住 空间 块 ， 然 后 找到 合适 大 小 数据 块 ， 所 以 相对 来 
说 ， 分 配 内 存 块 是 一 个 非常 慢 的 操作 。MySQL 尽 量 避 免 这 个 操作 的 次 
数 。 当 需要 缓存 一 个 查询 结果 的 时 候 ， 它 先 选 择 一 个 尽 可 能 小 的 内 存 
块 (也 可 能 选择 较 大 的 ， 这 里 将 不 介绍 细节 ) ， 然 后 将 结果 存 入 其 
中 。 如 果 数 据 块 全 部 用 完 ， 但 仍 有 剩余 数据 需要 存储 ， 那 么 MySQL 会 
申请 一 块 新 数据 块 一 一 仍然 是 尽 可 能 小 的 数据 块 一 一 继续 存储 结果 数 
据 。 当 查询 完成 时 ， 如 果 申 请 的 内 存 空间 还 有 剩余 ，MySQL 会 将 其 释 
放 ， 并 放 入 空 闪 内 存 部 分 。 图 7-3 展 示 了 这 个 过 程 (3。 
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图 7-3 : 查询 缓存 如 何 分 配 内 存 来 存储 结果 数据 


我 们 上 面 说 的 “分 配 内 人 存 块 >， 并 不 是 指 通过 函 效 mallocO 癌 操作 系 
统 申请 内 存 ， 这 个 操作 只 在 初次 创建 查询 缓存 的 时 候 执 行 一 次 。 这 里 
“分 配 内 存 块 " 是 指 在 空 闪 块 列表 中 找到 一 个 合适 的 内 存 块 ， 或 者 从 正 
在 使 用 的 、 待 淘汰 的 内 存 块 中 回收 再 使 用 。 也 就 是 说 ， 这 里 MySQL 自 
己 管理 一 大 块 内存 ， 而 不 依赖 操作 系统 的 内 存 管理 。 


至 此 ， 一 切 都 看 起 来 很 简单 。 不 过 实际 情况 比 图 7-3 要 更 复杂 。 例 
如 ， 我 们 假设 平均 查询 结果 非常 小 ， 服 务 器 在 并 发 地 向 不 同 的 两 个 连 
接 返 回 结果 ， 返 回 完结 果 后 MySQL 回 收 剩余 数据 块 空 间 时 会 发 现 ， 回 
收 的 数据 块 小 于 query_cache_min_res_unit， 所 以 不 能 够 直接 在 后 续 的 
内 存 块 分 配 中 使 用 。 如 果 考 虑 到 这 种 情况 ， 数 据 块 的 分 配 就 更 复杂 
些 ， 如 图 7-4 所 示 。 
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图 7-4: 查询 缓存 中 存储 查询 结果 后 剩余 的 碎片 


在 收缩 第 一 个 查询 结果 使 用 的 缓存 空间 时 ， 就 会 在 第 二 个 查询 结 
果 之 间 留 下 一 个 “ 空 阶 ” 一 一 一 个 非常 小 的 空 闪 空间 ， 因 为 小 于 
query_cache_min_res_unit 而 不 能 再 次 被 查询 缓存 使 用 。 这 类 “空隙 ”我 
们 称 为 “碎片 ”， 这 在 内 存 管理 、 文 件 系统 管理 上 都 是 经 典 问题 。 有 很 
多 种 情况 都 会 导致 碎片 ， 例 如 缓存 失效 时 ， 可 能 导致 留 下 太 小 的 数据 
块 无 法 在 后 续 缓存 中 使 用 。 


ii 什么 情况 下 查询 缓存 能 发 挥 作 


并 不 是 什么 情况 下 查询 缓存 都 会 提高 系统 性 能 的 。 缓 存 和 失效 都 
会 带 来 额外 的 消耗 ， 所 以 只 有 当 缓 存 带 来 的 资源 节约 大 于 其 本 身 的 资 
源 消耗 时 才 会 给 系统 带 来 性 能 提升 。 这 跟 具 体 的 服务 器 压力 模型 有 
天 。 


理论 上 ， 可 以 通过 观察 打开 或 者 关闭 查询 缓存 时 候 的 系统 效率 来 
决定 是 否 需要 开启 查询 缓存 。 关 闭 查 询 缓存 时 ， 每 个 查询 都 需要 完整 
的 执行 ， 每 一 次 写 操作 执行 完成 后 立刻 返回 ， 打 开 查 询 缓存 时 ， 每 次 
读 请 求 先 检查 缓存 是 否 命中 ， 如 果 命中 则 立刻 返回 ， 否 则 就 完整 地 执 
行 查询 ， 每 次 写 操作 则 需要 检查 查询 缓存 中 是 否 有 需要 失效 的 缓存 ， 
然后 再 返回 。 这 个 过 程 还 比较 简单 明了 ， 但 是 要 评估 打开 查询 缓存 是 
否 能 够 带 来 性 能 提升 却 并 不 容易 。 还 有 一 些 外 部 的 因素 需要 考虑 ， 例 
如 ， 碍 询 缓存 可 以 降低 查询 执行 的 时 间 ， 但 是 却 不 能 减少 查询 结果 传 
输 的 网 络 消耗 ， 如 果 这 个 消耗 是 系统 的 主要 瓶颈 ， 那 么 查询 缓存 的 作 
用 也 很 小 。 


因为 MySQL 在 SHOW STATUS 中 只 能 提供 一 个 全 局 的 性 能 指标 ， 
所 以 很 难 根据 此 来 判断 查询 缓存 是 否 能 够 提升 性 能 0。 很 多 时 候 ， 全 
局 平均 不 能 反映 实际 情况 。 例 如 ， 打 开 查 询 缓 存 可 以 使 得 一 个 很 慢 的 
查询 变 得 非常 快 ， 但 是 也 会 让 其 他 查询 稍微 慢 一 点 点 。 有 时 候 如 果 能 
够 让 某 些 关键 的 查询 速度 更 快 ， 稍 微 降低 一 下 其 他 查询 的 速度 是 值得 
的 。 不 过 ， 这 种 情况 我 们 推荐 使 用 SQL_CACHE 来 优化 对 查询 缓存 的 
使 用 。 


对 于 那些 需要 消耗 大 量 资源 的 查询 通常 都 是 非常 适合 缓存 的 。 例 
如 一 些 汇 总 计算 查询 ， 具 体 的 如 COUNT() 等 。 总 地 来 说 ， 对 于 复杂 的 
SELECT 语句 都 可 以 使 用 查询 缓存 ， 例 如 多 表 JOIN 后 还 需要 做 排序 和 
分 页 ， 这 类 查询 每 次 执行 消耗 都 很 大 ， 但 是 返回 的 结果 集 却 很 小 ， 非 
常 适 合 查询 缓存 。 不 过 需要 注意 的 是 ， 涉 及 的 表 上 UPDATE 、 
DELETE 和 INSERT 操 作 相 比 SELECT 来 说 要 非常 少 才 行 。 


一 个 判断 查询 缓存 是 否 有 效 的 直接 数据 是 命中 率 ， 就 是 使 用 查询 
缓存 返回 结果 占 总 查询 的 比率 。 当 MySQL 接 收 到 一 个 SELECT 查 询 的 


时 候 ， 要 么 增加 Qcache_hits 的 值 ， 要 么 增加 Com_select 的 值 。 所 以 查 
询 级 存 命中 率 可 以 由 如 下 公式 计算 


Qcache_hits/(Qcache_hits+Com_select)o 


不 过 ， 查 询 缓存 命中 率 是 一 个 很 难 判 断 的 数值 。 命 中 率 多 大 才 是 
好 的 命中 率 ” 上 有 具体 情 况 要 具体 分 析 。 只 要 查询 缓存 融 来 的 效率 提升 大 
于 查询 缓存 带 来 的 额外 消耗 ， 即 使 30% 命 中 率 对 系统 性 能 提升 也 有 很 
大 好 人 处。 另外 ， 缓 存 了 哪些 查询 也 很 重要 ， 例 如 ， 被 缓存 的 查询 本 身 
消耗 非常 上 巨大， 那么 即使 缓存 命中 率 非 常 低 ， 也 仍然 会 对 系统 性 能 提 
升 有 好 处 。 所 以 ， 没 有 一 个 简单 的 规则 可 以 判断 查询 缓存 是 否 对 系统 
有 好 处 。 


任何 SELECT 语句 没有 从 查询 缓存 中 返回 都 称 为 “缓存 未 命中 ”。 
缓存 未 命中 可 能 有 如 下 几 种 原因 : 


。 查询 语句 无 法 被 缓存 ， 可 能 是 因为 查询 中 包含 一 个 不 确定 的 函数 
(如 CURRENT_DATA) ， 或 者 查询 结果 太 大 而 无 法 缓存 。 这 都 
会 导致 状态 值 Qcache_not_cached 增 加 。 
MySQL 从 未 处 理 这 个 查询 ， 所 以 结果 也 从 不 曾 被 缓存 过 。 

还 有 一 种 情况 是 虽然 之 前 缓存 了 查询 结果 ， 但 是 由 于 查询 缓存 的 
内 存 用 完了 ，MySQL 需 要 将 某 些 缓存 * 逐 出 ”， 或 者 由 于 数据 表 被 
修改 导致 缓存 失效 。 (后 续 会 详细 介绍 缓存 失效 。) 


如 果 你 的 服务 器 上 有 大 量 缓存 未 命中 ， 但 是 实际 上 绝 大 数 碍 询 都 
被 缓存 了 ， 那 么 一 定 是 有 如 下 情况 发 生 : 


结果 都 组 存 起 来 。 


查询 语句 之 前 从 未 执行 过 。 如 果 你 的 应 用 程序 不 会 重复 执行 一 条 
查询 语句 ， 那 么 即使 完成 预 热 仍然 会 有 很 多 缓存 未 命中 。 
缓存 失效 操作 太 多 了 。 


缓存 碎片 、 内 人 存 不 足 、 数 据 修改 都 会 造成 缓存 失效 。 如 果 配 置 了 
足够 的 缓存 空间 ， 而 且 query_cache_min_res_unit 设 置 也 合理 的 话 ， 那 
么 缓存 失效 应 该 主要 是 数据 修改 导致 的 。 可 以 通过 参数 Com_* 来 查看 
数据 修改 的 情况 (包括 Com_update，Com_delete， 等 等 ) ， 还 可 以 通 
过 Qcache_ lowmem_prunes 来 查看 有 多 少 次 失效 是 由 于 内 存 不 足 导致 
的 。 


在 考虑 缓存 命中 率 的 同时 ， 通 常 还 需要 考虑 缓存 失效 带 来 的 额外 
消耗 。 一 个 极端 的 办 法 是 ， 对 某 一 个 表 先 做 一 次 只 有 查询 的 测试 ， 并 
且 所 有 的 查询 都 命中 缓存 ， 而 另 一 个 相同 的 表 则 只 做 修改 操作 。 这 
时 ， 碍 询 缓存 的 命中 率 就 是 100%。 但 因为 会 给 更 新 操作 带 来 额外 的 消 
耗 ， 所 以 查询 缓存 并 不 一 定 会 带 来 总 体 效 率 的 提升 。 这 里 ， 所 有 的 更 
新 语句 都 会 做 一 次 缓存 失效 检查 ， 而 检查 的 结果 都 是 相同 的 ， 这 会 给 
系统 带 来 额外 的 资源 浪费 。 所 以 ， 如 果 你 只 是 观察 查询 缓存 的 命中 率 
的 话 ， 可 能 完全 不 会 发 现 这 样 的 问题 。 


在 MyYSQL 中 如 果 更 新 操作 和 惠 缓 存 的 恋 操作 混合 ， 那 么 查询 缓存 
市 来 的 好 处 通 瘦 很 难 衡量 。 更 新 操作 会 不 断 地 使 得 缓存 失效 ， 而 同时 
每 次 查询 还 会 向 缓存 中 再 写 入 新 的 数据 。 所 以 只 有 当 后 续 的 查询 能 够 
在 缓存 失效 前 使 用 缓存 才 会 有 效 地 利用 查询 缓存 。 


如 果 缓 存 的 结果 在 失效 前 没有 被 任何 其 他 的 SELECT 语句 使 用 ， 
那么 这 次 缓存 操作 就 是 浪费 时 间 和 内 存 。 我 们 可 以 通过 查看 
Com_select 和 Qcache_inserts 的 相对 值 来 看 看 是 否 一 直 有 这 种 情况 发 


生 。 如 果 每 次 查询 操作 都 是 缓存 未 命中 ， 然 后 需要 将 查询 结果 放 到 缓 
存 中 ， 那 么 Qcache_inserts 的 大 小 应 该 和 Com_select 相 当 。 所 以 在 缓存 
完成 预 热 后 ， 我 们 总 希望 看 到 Qcache_inserts 远 远 小 于 Com_select。 不 
过 由 于 缓存 和 服务 器 内 部 的 复杂 和 多 样 性 ， 仍 然 很 难说 ， 这 个 比率 是 
多 少 才 是 一 个 合适 的 值 。 


所 以 ， 上 面 的 * 命 中 率 ” 和 “INSERTS 和 SELECT 比率 ”都 无 法 直观 地 
反应 查询 缓存 的 效率 。 那 么 还 有 什么 直观 的 办 法 能 够 反映 查询 缓存 是 
否 对 系统 有 好 处 ? 这 里 推荐 查看 另 一 个 指标 :“ 命 中 和 写 入 ”的 比率 ， 
即 Qcache_hits 和 Qcache_inserts 的 比值 。 根 据 经 验 来 看 ， 当 这 个 比值 大 
于 3:1 时 通常 查询 缓存 是 有 效 的 ， 不 过 这 个 比率 最 好 能 够 达到 10:1。 如 
果 你 的 应 用 没有 达到 这 个 比率 ， 那 么 就 可 以 考虑 禁用 查询 缓存 了 ， 除 
非 你 能 够 通过 精确 的 计算 得 知 : 命中 带 来 的 性 能 提升 大 于 缓存 失效 的 
消耗 ， 并 且 碍 询 缓存 并 没有 成 为 系统 的 瓶颈 。 


每 一 个 应 用 程序 都 会 有 一 个 “最 大 缓存 空间 "， 甚 至 对 一 些 纯 读 的 
应 用 来 说 也 一 样 。 最 大 缓存 空间 是 能 够 缓存 所 有 可 能 查询 结果 的 缓存 
空间 总 和 。 理 论 上 ， 对 多 数 应 用 来 说 ， 这 个 数值 都 会 非常 大 。 而 实际 
上 ， 由 于 缓存 失效 的 原因 ， 大 多 数 应 用 最 后 使 用 的 缓存 空间 都 比 预 想 
的 要 小 。 即 使 你 配置 了 足够 大 的 缓存 空间 ， 由 于 不 断 地 失效 ， 导 致 组 
存 空 间 一 直 都 不 会 接近 “最 大 缓存 空间 ”。 


通常 可 以 通过 观察 查询 缓存 内 存 的 实际 使 用 情况 ， 来 确定 是 否 需 
要 缩小 或 者 扩大 查询 缓存 。 如 果 碍 询 缓存 空间 长 时 间 都 有 剩余 ， 那 么 
建议 缩小 ， 如 果 经 党 由 于 空间 不 足 而 导致 查询 缓存 失效 ， 那 么 则 需要 
增 大 查询 缓存 。 不 过 需要 注意 ， 如 果 查 询 缓存 达到 了 几 十 兆 这 样 的 数 
量 级 ， 是 有 潜在 危险 的 。 (这 和 硬件 以 及 系统 压力 大 小 有 关 ) o 


另外 ， 可 能 还 需要 和 系统 的 其 他 缓存 一 起 考虑 ， 例 如 InnoDB 的 缓 
T, 或 者 MyISAM 的 索引 缓存 。 关 于 这 点 是 没 法 简单 给 出 一 个 公式 
或 者 比率 来 判断 的 ， 因 为 真正 的 平衡 点 与 应 用 程序 有 很 大 的 关系 。 

最 好 的 判断 查询 缓存 是 否 有 效 的 办 法 还 是 通过 查看 某 类 查询 时 间 
消耗 是 否 增 大 或 者 减少 来 判断 。Percona Server 通 过 扩展 慢 查 询 可 以 观 

到 一 个 查询 是 否 命中 缓存 。 如 果 查 询 缓存 没有 为 系统 节省 时 间 ， 那 


么 最 好 禁用 它 。 


7.12.4 ”如 何 配 置 和 维护 查询 缓存 


一 旦 理解 查询 缓存 工作 的 原理 ， 配 置 起 来 就 很 容易 了 。 它 也 只 
很 少 的 参数 可 供 配 置 ， 如 下 所 示 。 


query_cache_type 


是 否 打 开 碍 询 缓存 。 可 以 设置 成 OFF、ON 或 DEMAND。 
DEMAND 表示 只 有 在 查询 语句 中 明确 写 明 SQL_CACHE 的 语句 才 
放 入 查询 缓存 。 这 个 变量 可 以 是 会 话 级 别 的 也 可 以 是 全 局 级 别 的 

会 话 级 别 和 全 局 级 别 的 概念 请 参考 第 8 章 ) 。 


query_cache_size 


查询 缓存 使 用 的 总 内 存 空间 ， 单 位 是 字 节 。 这 个 值 必须 是 1 
024 的 整数 倍 ， 否 则 MySQL 实 际 分 配 的 数据 会 和 你 指定 的 略 有 不 
同 。 


query_cache_min_res_unit 


在 查询 缓存 中 分 配 内 存 块 时 的 最 小 单位 。 在 前 面 我 们 已 经 介 
绍 了 这 个 参数 ， 后 面 我 们 还 将 进一步 讨论 它 。 


query_cache_limit 


MySQL 能 够 缓存 的 最 大 查询 结果 。 如 果 查 询 结 果 大 于 这 个 
值 ， 则 不 会 被 缓存 。 因 为 查询 组 存在 数据 生成 的 时 候 束 开始 尝试 
缓存 数据 ， 所 以 只 有 当 结果 全 部 返回 后 ，MySQL 才 知道 查询 结果 
是 否 超出 限制 。 


如 果 超 出 ，MySQL 则 增加 状态 值 Qcache_not_cached， 并 将 结果 从 
查询 缓存 中 删除 。 如 果 你 事先 知道 有 很 多 这 样 的 情况 发 生 ， 那 么 建议 
在 查询 语句 中 加 入 SQL_NO_CACHE 来 避免 查询 缓存 带 来 的 额外 消 
耗 。 


query_cache_wlock_invalidate 


如 果 某 个 数据 表 被 其 他 的 连接 锁 住 ， 是 否 仍然 从 查询 缓存 中 
返回 结果 。 这 个 参数 默认 是 OFF， 这 可 能 在 一 定 程序 上 会 改变 服 
务 器 的 行为 ， 因 为 这 使 得 数据 库 可 能 返回 其 他 线程 锁 住 的 数据 。 
将 参数 设置 成 ON， 则 不 会 从 缓存 中 读 取 这 类 数据 ， 但 是 这 可 能 会 
增加 锁 等 待 。 对 于 绝 大 数 应 用 来 说 无 须 注意 这 个 细节 ， 所 以 默认 


设置 通 单 是 没有 问题 的 。 


配置 查询 缓存 通常 很 简单 ， 但 是 如 果 想 知道 修改 这 些 参 数 会 带 来 
哪些 改变 ， 则 是 一 项 很 复杂 的 工作 。 后 续 的 章节 ， 我 们 将 帮助 你 来 决 
定 怎样 设置 这 些 参 数 。 


减少 碎片 


没什么 办 法 能 够 完全 避免 碎片 ， 但 是 选择 合适 的 
query_cache_min_res_unit 可 以 帮 你 减少 由 碎片 导致 的 内 存 空间 浪费 。 
设置 合适 的 值 可 以 平衡 每 个 数据 块 的 大 小 和 每 次 存储 结果 时 内 存 块 申 
请 的 次 数 。 这 个 值 太 小 ， 则 浪费 的 空间 更 少 ， 但 是 会 导致 更 频繁 的 内 
存 块 申请 操作 ;如果 这 个 值 设置 得 太 大 ， 那 么 碎片 会 很 多 。 调 整合 适 
的 值 其 实 是 在 平衡 内 存 浪费 和 CPU 消 耗 。 


这 个 参数 的 最 合适 的 大 小 和 应 用 程序 的 查询 结果 的 平均 大 小 直接 
相 关 。 可 以 通 过 内 存 KR 际 HK 
( query_cache_size—Qcache_free_memory ) 除 以 
Qcache_queries_in_cache 计 算 单 个 查询 的 平均 缓存 大 小 。 如 果 你 的 应 用 
程序 的 查询 结果 很 不 均匀 ， 有 的 结果 很 大 ， 有 的 结果 很 小 ， 那 么 碎片 
和 反复 的 内 存 块 分 配 可 能 无 法 避免 。 如 果 你 发 现 缓存 一 个 非常 大 的 结 
果 并 没有 什么 意义 (通常 确实 是 这 样 ) ， 那 么 你 可 以 通过 参数 
query_cache_limit 限 制 可 以 缓存 的 最 大 碍 询 结果 ， 借 此 大 大 减少 大 的 碍 
询 结果 的 缓存 ， 最 终 减 少 内 存 碎 片 的 发 生 。 


还 可 以 通过 参数 Qcache free blocks 来 观察 碎片 。 人 参数 
Qcache_free_blocks 反 映 了 查询 缓存 中 空 闪 块 的 多 少 ， 在 图 7-4 的 配置 中 
我 们 看 到 ， 有 两 个 空闲 块 。 最 糟糕 的 情况 是 ， 任 何 两 个 存储 结果 的 数 
据 块 之 间 都 有 一 个 非常 小 的 空间 块 。 所 以 如 果 Qcache_free_blocks 大 小 
恰好 达到 Qcache_total_blocks/2， 那 么 查询 缓存 就 有 严重 的 人 雄 片 问题 。 
而 如 果 你 还 有 很 多 空 闪 块 ， 而 状态 值 Qcache_lowmem_prunes 还 不 断 地 
增加 ， 则 说 明 由 于 碎片 导致 了 过 早 地 在 删除 查询 缓存 结果 。 


可 以 使 用 命令 FLUSH QUERY CACHE 完 成 碎片 整理 。 这 个 命令 会 
将 所 有 的 查询 缓存 重新 排序 ， 并 将 所 有 的 空 闪 空间 都 聚集 到 查询 缓存 
的 一 块 区 域 上 。 不 过 需要 注意 ， 这 个 命令 并 不 会 将 查询 缓存 清空 ， 清 
空 缓存 由 命令 RESET QUERY CACHE 完 成 。FLUSH QUERY CACHE 
会 访问 所 有 的 查询 缓存 ， 在 这 期 间 任何 其 他 的 连接 都 无 法 访问 查询 缓 
存 ， 从 而 会 导致 服务 器 僵 死 一 段 时 间 ， 使 用 这 个 命令 的 时 候 需 要 特别 
小 心 这 点 。 另 外 ， 根 据 经 验 ， 建 议 保 持 查询 缓存 空间 足够 小 ， 以 便 在 
维护 时 可 以 将 服务 器 伪 死 控制 在 非常 短 的 时 间 内 。 


提高 查询 缓存 的 使 用 率 


如 果 查 询 缓存 不 再 有 碎片 问题 ， 但 你 仍然 发 现 命 中 率 很 低 ， 还 可 
能 是 查询 缓存 的 内 存 空间 太 小 导致 的 。 如 果 MySQL 无 法 为 一 个 新 的 查 
询 缓存 结果 的 时 候 ， 则 会 选择 删除 某 个 老 的 缓存 结果 。 


当 由 于 这 个 原因 导致 删除 老 的 缓存 结果 时 ， 会 增加 状态 值 
Qcache_ lowmem_prunes。 如 果 这 个 值 增加 得 很 快 ， 那 么 可 能 是 由 下 面 
两 个 原因 导致 的 : 


。 如 果 还 有 很 多 空闲 块 ， 那 么 碎片 可 能 是 罪魁 祸首 (参考 前 面 的 小 
T) s 

如 果 这 时 没什么 空 亲 块 了 ， 就 说 明 在 这 个 系统 压力 下 ， 你 分 配 的 
查询 缓存 空间 不 够 大 。 你 可 以 通过 检查 状态 值 
Qcache_free memory 来 查看 还 有 多 少 没 有 使 用 的 内 存 。 


如 果 空 闪 块 很 多 ， 雄 片 很 少 ， 也 疫 有 什么 由 于 内 存 导 致 的 缓存 失 
效 ， 但 是 命中 率 仍然 很 低 ， 那 么 很 可 能 说 明 ， 在 你 的 系统 压力 下 ， 查 


询 缓存 并 没有 什么 好 处 。 一 定 是 什么 原因 导致 查询 缓存 无 法 为 系统 服 
Z, 例如 有 大 量 的 更 新 或 者 查询 语句 本 身 都 不 能 被 缓存 。 


如 果 在 观察 命中 率 时 ， 仍 然 无 法 确定 查询 缓存 是 否 给 系统 带 来 了 
好 处 ， 那 么 可 以 通过 禁用 它 ， 然 后 观察 系统 的 性 能 ， 再 重新 打开 它 ， 
观察 性 能 变化 ， 据 此 来 判断 查询 缓存 是 否 给 系统 带 来 了 好 处。 可 以 通 
过 将 query_cache_size 设置 成 0， 来 关闭 查询 缓存 。 (改变 
query_cache_type 的 全 局 值 并 不 会 影响 已 经 打开 的 连接 ， 也 不 会 将 查询 
缓存 的 内 存 释 放 给 系统 。) 你 还 可 以 通过 系统 测试 来 验证 ， 不 过 一 般 
都 很 难 精 确 地 模拟 实际 情况 。 


图 7-5 展 示 了 一 个 用 来 分 析 和 配置 查询 缓存 的 流程 图 。 


图 7-5: 如 何 分 析 和 配置 查询 缓存 


7.12.5 ”InnoDB 和 查询 缓存 


因为 InnoDB 有 自己 的 MVCC 机 制 ， 所 以 相 比 其 他 存储 引擎 ， 
InnoDB 和 查询 缓存 的 交互 要 更 加 复杂 。MySQL 4.0 版 本 中 ， 在 事务 处 
理 中 查询 缓存 是 被 禁用 的 ， 从 4.1 和 更 新 的 mnoDB 版 本 开始 ，InnoDB 
会 控制 在 一 个 事务 中 是 否 可 以 使 用 查询 缓存 ，InnoDB 会 同时 控制 对 查 
询 缓存 的 读 (从 缓存 中 获取 查询 结果 ) 和 写 操 作 (向 查询 缓存 写 入 结 
果 ) 。 


事务 是 否 可 以 访问 查询 缓存 取决 于 当前 事务 ID ， 以 及 对 应 的 数据 
表 上 是 否 有 锁 。 每 一 个 InnoDB 表 的 内 存 数据 字典 都 保存 了 一 个 事物 ID 
号 ， 如 果 当 前 事务 ID 小 于 该 事务 ID ， 则 无 法 访问 查询 缓存 。 


如 果 表 上 有 任何 的 锁 ， 那 么 对 这 个 表 的 任何 查询 语句 都 是 无 法 被 
缓存 的 。 例 如 ， 某 个 事务 执行 了 SELECT FOR UPDATE 语句， 那么 在 
这 个 锁 释 放 之 前 ， 任 何其 他 的 事务 都 无 法 从 查询 缓存 中 读 取 与 这 个 表 
相关 的 缓存 结果 。 


当 事 务 提交 时 ，InnoDB 持 有 锁 ， 并 使 用 当前 的 一 个 系统 事务 ID 更 
新 当前 表 的 计数 器 。 锁 一 定 程度 上 说 明 事 务 需 要 对 表 进 行 修改 操作 ， 
当然 有 可 能 事务 获得 锁 ， 却 不 进行 任何 更 新 操作 ， 但 是 如 果 想 更 新 任 
何 表 的 内 容 ， 获 得 相应 锁 则 是 前 提 条 件 。InnoDB 将 每 个 表 的 计数 器 设 
置 成 某 个 事务 ID ， 而 这 个 事务 ID 就 代表 了 当前 存在 的 且 修 改 了 该 表 的 
最 大 的 事务 ID。 


那么 下 面 的 一 些 事实 也 就 成 立 : 


。 所 有 大 于 该 表 计 数 器 的 事务 才 可 以 使 用 查询 缓存 。 例 如 当前 系统 
的 事务 ID 是 5， 且 事务 获取 了 该 表 的 某 些 记录 的 锁 ， 然 后 进行 事 
务 提交 操作 ， 那 么 事务 1 至 4， 都 不 应 该 再 读 取 或 者 向 查询 缓存 写 
入 任何 相关 的 数据 。 

该 表 的 计数 器 并 不 是 直接 更 新 为 对 该 表 进 行 加 锁 的 事务 ID， 而 是 
被 更 新 成 一 个 系统 事务 ID。 所 以 ， 会 发 现 该 事务 目 身 后 续 的 更 新 
操作 也 无 法 读 取 和 修改 查询 缓存 。 


查询 缓存 存储 、 检 索 和 失效 操作 都 是 在 MySQL 层 面 完 成 ，InnoDB 
无 法 绕 过 或 者 延迟 这 个 行为 。 但 InnoDB 可 以 在 事务 中 显 式 地 告诉 
MySQL 何 时 应 该 让 某 个 表 的 查询 缓存 都 失效 。 在 有 外 键 限 制 的 时 候 这 
是 必须 的 ， 例 如 某 个 SQL 语句 有 ON DELETE CASCADE, ARAHKE 
表 的 查询 缓存 也 是 要 一 起 失效 的 。 


原则 上 ， 在 InnoDB 的 MVCC 架 构 下 ， 当 某 些 修改 不 影响 其 他 事务 
读 取 一 致 的 数据 时 ， 是 可 以 使 用 查询 缓存 的 。 但 是 这 样 实现 起 来 会 非 
常 复杂 ，InnoDB 做 了 一 个 简化 ， 让 所 有 有 加 锁 操作 的 事务 都 不 使 用 任 
何 查询 缓存 ， 这 个 限制 其 实 并 不 是 必须 的 。 


人 My 
7.12.6 ”通用 查询 缓存 优化 
库 表 结构 的 设计 、 查 询 语句 、 应 用 程序 设计 都 可 能 会 影响 到 查询 
缓存 的 效率 。 除 了 前 文 介 绍 的 之 外 ， 这 里 还 有 一 些 要 点 需要 注意 : 


。 用 多 个 小 表 代替 一 个 大 表 对 查询 缓存 有 好 处 。 这 个 设计 将 会 使 得 
失效 策略 能 够 在 一 个 更 合适 的 粒度 上 进行 。 当 然 ， 不 要 让 这 个 原 


则 过 分 影响 你 的 设计 ， 毕 竟 其 他 的 一 些 优势 可 能 很 容易 就 弥补 了 

这 个 问题 。 

批量 写 入 时 只 需要 做 一 次 缓存 失效 ， 所 以 相 比 单条 写 入 效率 更 

好 。 《另外 需要 注意 ， 不 要 同时 做 延迟 写 和 批量 写 ， 否 则 可 能 会 

因为 失效 导致 服务 器 僵 死 较 长 时 间 。 ) 

因为 缓存 空间 太 大 ， 在 过 期 操作 的 时 候 可 能 会 导致 服务 器 僵 死 。 

一 个 简单 的 解决 办 法 就 是 控制 缓存 空间 的 大 小 
(query_cache_size) ， 或 者 直接 禁用 查询 缓存 。 

无 法 在 数据 库 或 者 表 级 别 控制 查询 缓存 ， 但 是 可 以 通过 

SQL_CACHE 和 SQL_NO_CACHE 来 控制 某 个 SELECT 语句 是 否 需 

要 进行 缓存 。 你 还 可 以 通过 修改 会 话 级 别 的 变量 query_cache_type 

来 控制 查询 缓存 。 

对 于 写 密集 型 的 应 用 来 说 ， 直 接 禁 用 查询 缓存 可 能 会 提高 系统 的 

性 能 。 关 闭 查 询 缓 存 可 以 移 除 所 有 相关 的 消耗 。 例 如 将 

query_cache_size 设 置 成 9， 那么 至 少 这 部 分 就 不 再 消耗 任何 内 存 

了 。 

因为 对 互 斥 信号 量 的 竞争 ， 有 时 直接 关闭 查询 缓存 对 读 密集 型 的 

应 用 也 会 有 好 处 。 如 果 你 希望 提高 系统 的 并 发 ， 那 么 最 好 做 一 个 

相关 的 测试 ， 对 比 打 开 和 关闭 查询 缓存 时 候 的 性 能 差异 。 


如 果 不 想 所 有 的 查询 都 进入 查询 缓存 ， 但 是 又 希望 某 些 查询 走 查 
询 缓存 ， 那 么 可 以 将 query_cache_type 设 置 成 DEMAND ， 然 后 在 希望 
缓存 的 查询 中 加 上 SQL_CACHE。 这 虽然 需要 在 查询 中 加 入 一 些 额外 
的 语法 ， 但 是 可 以 让 你 非常 自由 地 控制 哪些 查询 需要 被 缓存 。 相 反 ， 
如 果 希 望 缓 存 多 数 查询 ， 而 少数 查询 又 不 希望 缓存 ， 那 么 你 可 以 使 用 
关键 字 SQL_NO_CACHE。 


7.12.7 ”查询 缓存 的 蔡 代 方案 


MySQL 查 询 缓存 工作 的 原则 是 : 执行 查询 最 快 的 方式 就 是 不 去 执 
行 ， 但 是 查询 仍然 需要 发 送 到 服务 器 端 ， 服 务 器 也 还 需要 做 一 点 点 工 
作 。 如 果 对 于 某 些 查询 完全 不 需要 与 服务 器 通信 效果 会 如 何 呢 ? 这 时 
客户 端的 缓存 可 以 很 大 程度 上 帮 你 分 担 MySQL 服 务 器 的 压力 。 我 们 将 
在 第 14 章 详细 介绍 更 多 关于 缓存 的 内 容 。 


7.13 “总结 


本 章 详细 介绍 了 前 面 各 个 章节 中 提 到 的 一 些 MySQL 特 性 。 这 里 我 
们 将 再 来 回顾 一 下 其 中 的 一 些 重 点 内 容 。 


分 区 表 


分 区 表 是 一 种 粗 粒 度 的 、 简 易 的 索引 策略 ， 适 用 于 大 数据 量 
的 过 滤 场 景 。 最 适合 的 场景 是 ， 在 没有 合适 的 索引 时 ， 对 其 中 几 
个 分 区 进行 全 表 扫 描 ， 或 者 是 只 有 一 个 分 区 和 索引 是 热点 ， 而 且 
这 个 分 区 和 索引 能 够 都 在 内 存 中 ; 限制 单 表 分 区 数 不 要 超过 150 
个 ， 并 且 注 意 某 些 导致 无 法 做 分 区 过 滤 的 细节 ， 分 区 表 对 于 单条 
记录 的 查询 并 没有 什么 优势 ， 需 要 注意 这 类 查询 的 性 能 。 


视图 


对 好 几 个 表 的 复杂 查询 ， 使 用 视图 有 时 候 会 大 大 简化 间 题 。 
当 视 图 使 用 临时 表 时 ， 无 法 将 WHERE 条 件 下 推 到 各 个 具体 的 


表 ， 也 不 能 使 用 任何 索引 ， 需 要 特别 注意 这 类 查询 的 性 能 。 如 果 
为 了 便利 ， 使 用 视图 是 很 合适 的 。 


外 键 


外 键 限 制 会 将 约束 放 到 MySQL 中 ， 这 对 于 必须 维护 外 键 的 场 
景 ， 性 能 会 更 高 。 不 过 这 也 会 带 来 额外 的 复杂 性 和 额外 的 索引 消 
耗 ， 还 会 增加 多 表 之 间 的 交互， 会 导致 系统 中 更 多 的 锁 和 竞争 。 
外 键 可 以 被 看 作 是 一 个 确保 系统 完整 性 的 额外 的 特性 ， 但 是 如 果 
设计 的 是 一 个 高 性 能 的 系统 ， 那 么 外 备 束 显得 很 脓肿 了 。 很 多 人 
在 更 在 意 系统 的 性 能 的 时 候 都 不 会 使 用 外 键 ， 而 是 通过 应 用 程序 
来 维护 。 


存储 过 程 


MySQL 本 身 实 现 了 存储 过 程 、 触 发 右 、 人 存储 阔 效 和 事件 ， 老 
实说 ， 这 些 特性 并 没什么 特别 的 。 而 且 对 于 基于 语句 的 复制 还 有 
很 多 问题 。 通 常 ， 使 用 这 些 特性 可 以 帮 你 节省 很 多 的 网 络 开销 
一 一 很 多 情况 下 ， 减 少 网 络 开 销 可 以 大 大 提升 系统 的 性 能 。 在 某 
些 经 典 的 场景 下 你 可 以 使 用 这 些 特性 (例如 中 心 化 业务 逻辑 、 统 
过 权限 系统 ， 等 等 ) ， 但 需要 注意 在 MySQL 中 ， 这 些 特性 并 没有 
别 的 数据 库 系 统 那么 成 熟 和 全 面 。 


HELE 
当 碍 询 语句 的 解析 和 执行 计划 生成 消耗 了 主要 的 时 间 ， 那 么 
绑 定 变量 可 以 在 一 定 程 度 上 解决 问题 。 因 为 只 需要 解析 一 次 ， 对 
于 大 量 重 复 类 型 的 查询 语句 ， 性 能 会 有 很 大 的 提高 。 另 外 ， 执 行 


计划 的 缓存 和 传输 使 用 的 二 进 制 协议 ， 这 都 使 得 绑 定 变量 的 方式 
比 普 通 SQL 语句 执行 的 方式 要 更 快 。 


插件 


使 用 C 或 者 C++ 编写 的 插件 可 以 让 你 最 大 程度 地 扩展 MySQL 
功能 。 插 件 功 能 非常 强大 ， 我 们 已 经 编写 了 很 多 UDF 和 插件 ， 在 
MySQL 中 解决 了 很 多 问题 。 


字符 集 是 一 种 字 节 到 字符 之 间 的 映射 ， 而 校对 规则 是 指 一 个 
字符 集 的 排序 方法 。 很 多 人 都 使 用 Latin1 (默认 字符 集 ， 对 英语 
和 某 些 欧洲 语言 有 效 ) 或 者 UTF-8。 如 果 使 用 的 是 UTF-8， 那 么 在 
使 用 临时 表 和 缓冲 区 的 时 候 需 要 注意 : MySQL 会 按照 每 个 字符 三 
个 字 节 的 最 大 占用 空间 来 分 配 存 储 空 间 ， 这 可 能 消耗 更 多 的 内 存 
或 者 磁盘 空间 。 注 意 让 字符 集 和 MySQL 字 符 集 配置 相符 ， 否 则 可 
能 会 由 于 字符 集 转换 让 某 些 索引 无 法 正常 使 用 。 


EMA 


在 本 书 编写 的 时 候 只 有 MyISAM 支 持 全 文 索引 ， 不 过 据说 从 
MySQL 5.6 开 始 ， InnoDB 也 将 支持 全 文 索 引 。MyISAM 因 为 在 锁 
粒度 和 骨 溃 恢复 上 的 缺点 ， 使 得 在 大 型 全 文 索引 场景 中 基本 无 法 
使 用 。 这 时 ， 我 们 通常 帮助 客户 构建 和 使 用 Sphinx 来 解决 全 文 索 
引 的 问题 。 


XA 事 务 


很 少 有 人 用 MySQL 的 XA 事务 特性 。 除 非 你 真正 明白 参数 
innodb_support_xa 的 意义 ， 否 则 不 要 修改 这 个 参数 的 值 ， 并 不 是 只 有 
显 式 使 用 XA 事务 时 才 需 要 设置 这 个 参数 。InnoDB 和 和 二进制 日 志 也 是 
需要 使 用 XA 事务 来 做 协调 的 ， 从 而 确保 在 系统 朋 演 的 时 候 ， 数 据 能 够 
一 致 地 恢复 。 


查询 缓存 


完全 相同 的 查询 在 重复 执行 的 时 候 ， 查 询 缓存 可 以 立即 返回 
结果 ， 而 无 须 在 数据 库 中 重新 执行 一 次 。 根 据 我 们 的 经 验 ， 在 高 
并 发 压力 环境 中 查询 缓存 会 导致 系统 性 能 的 下 降 ， 甚 至 僵 死 。 如 
果 你 一 定 要 使 用 查询 缓存 ， 那 么 不 要 设置 太 大 内 存 ， 而 且 只 有 在 
明确 收益 的 时 候 才 使 用 。 那 该 如 何 判断 是 否 应 该 使 用 查询 缓存 
呢 ? 建议 使 用 Percona Server， 观 察 更 细致 的 日 志 ， 并 做 一 些 简 单 
的 计算 。 还 可 以 查看 缓存 命中 率 (并 不 总 是 有 用 ) 、“INSERTS 和 
SELECT 比率 ”人 (这 个 参数 也 并 不 直观 ) 、 或 者 * 命 中 和 写 入 比率 ” 
(这 个 参考 意义 较 大 ) 。 查 询 缓存 是 一 个 非常 方便 的 缓存 ， 对 应 
用 程序 完全 透明 ， 无 须 任 何 额外 的 编码 ， 但 是 ， 如 果 希 望 有 更 高 
的 缓存 效率 ， 我 们 建议 使 用 memcached 或 者 其 他 类 似 的 解决 方 
案 。 第 14 章 介绍 了 更 多 的 细节 供 大 家 参考 。 


(1) 因为 可 以 在 这 里 存放 一 个 非法 的 日 期 ， 所 以 甚至 当 order_date 是 一 个 非 NULL 值 的 时 
候 ， 仍 然 会 出 现 这 样 情况 。 


(2) 从 用 户 角度 来 看 ， 这 应 该 是 一 个 缺陷 ， 不 过 从 MySQL 开 发 者 的 角度 来 看 这 是 一 个 特 
性 。 


(3) 这 些 特性 也 是 一 些 “ 鲜 为 人 知 的 犀利 ”特性 。 


(4) 这 里 的 “temp table” 并 不 是 指 真正 的 物理 上 存在 的 临时 表 。 没 有 经 过 这 些 改进 和 试验 ， 
MySQL 视 图 也 不 会 有 现在 的 效率 。 


(5) 在 MySQL 5.6 中 可 能 会 有 所 改进 ， 但 是 在 本 书写 作 的 时 候 5.6 还 没有 发 布 。 


(6) 这 个 语法 是 SQL/PSM 的 一 个 子 集 ，SQL/PSM 是 SQL 标准 中 的 持久 化 存储 模块 ， 在 
ISO/IEC 9075-4:2003(E) 中 定义 。 


(7) 有 一 些 专门 用 作 移植 的 工具 ， 例 如 tsql2mysql 项 目 就 是 专门 用 于 移植 SQL Server LAF 
储 过 程 。 参 考 : http://sourceforge.net/projects/tsql2mysqlo 


(8) 通常 各 个 层 都 有 自己 的 缓存 。 译 者 注 


(9) MySQL 4.0 和 更 早 的 版 本 中 ， 如 果 设 置 服务 器 的 全 局 设置 ， 有 几 种 8 字 节 的 字符 集 可 以 
选择 。 


(10) coercibility() 遂 数 的 返回 值 。 
(11) 即 排序 规则 。 译 者 注 


(12) 在 MySQL 5.1 中 ， 可 以 使 用 全 文 解析 器 插件 来 扩展 全 文 索引 的 功能 。 不 过 ，MySQL 
的 全 文 索 引 本 身 还 是 有 很 多 限制 的 ， 可 能 导致 无 法 在 你 的 应 用 场景 中 使 用 。 我 们 将 在 附录 F 中 
介绍 如 何 将 Sphinx 作 为 一 个 MySQL 内 部 搜索 引擎 来 使 用 。 


(13) 在 测试 使 用 时 的 一 个 常见 错误 就 是 ， 只 是 用 很 小 的 数据 集合 进行 全 文 索引 ， 所 以 总 
是 无 法 返回 结果 。 原 因 在 于 ， 每 个 搜索 关键 词 都 可 能 在 一 半 以 上 的 记录 里 面 出 现 过 。 


(14) 事实 上 ， 全 文 索引 根本 不 会 对 太 短 或 者 太 长 的 词语 进行 索引 ， 但 是 这 里 说 的 不 是 一 
回 事 。 一 般 地 ， MySQL 本 身 并 不 会 因为 搜索 关键 词 过 长 或 过 短 而 忽略 这 些 词语 ， 但 是 查询 优 
化 器 的 某 些 部 分 却 可 能 这 样 做 。 


(15) 在 撰写 本 书 的 时 候 , “批量 提交 ”的 问题 已 经 有 了 很 多 解决 方案 ， 其 中 至 少 有 三 种 是 
很 优秀 的 。 还 需要 进一步 观察 到 底 MySQL 官 方 会 采用 哪 一 种 ， 到 底 到 哪个 版 本 MySQL 才 会 合 
并 到 源码 。 目 前 ， 使 用 MariaDB 和 Percona Server 就 可 以 避免 这 个 问题 。 

(16) 一 个 常见 的 误区 是 认为 innodb_support_xa 只 有 在 需要 XA 事务 时 才 需 要 打开 。 这 是 错 
误 的 : 该 参数 还 会 控制 MyQSL 内 部 存储 引擎 和 二 进 制 日 志 之 间 的 分 布 式 事务 。 如 果 你 真正 关 
心 你 的 数据 ， 你 需要 将 这 个 参数 打开 。 


(17) 有 一 种 方式 查询 缓存 可 能 和 原生 的 SQL 工作 方式 有 所 不 同 : 默认 的 ， 当 要 查询 的 表 
被 LOCK TABLES 锁 住 时 ， 查 询 仍然 可 以 通过 查询 缓存 返回 数据 。 你 可 以 通过 参数 
query_cache_wlock_invalidate 打 开 或 者 关闭 这 种 行为 。 

(18) 对 于 这 个 规则 ，Percona Server 是 个 例外 。 它 会 先 将 所 有 的 注释 语句 删除 ， 然 后 再 比 
较 查 询 语句 是 否 有 缓存 。 这 是 一 个 通用 的 需求 ， 这 样 可 以 在 查询 语句 中 带 入 更 多 的 处 理 过 程 
信息 。 前 面 第 3 章 我 们 介绍 的 MySQL 监 控 系 统 就 依赖 于 此 。 

(19) 这 里 绘制 的 查询 缓存 内 存 分 配 图 ， 仍 然 是 一 种 简化 的 情况 。MySQL 实 际 管理 查询 缓 
存 的 方式 比 这 要 更 复杂 。 如 果 你 想 知 道 更 多 的 细节 ， 在 源 代码 文件 sql/sql_cache.cc 开 头 的 注释 


译 者 注 


中 有 非常 详细 的 解释 。 


(20) Percona 和 MariaDB 对 MySQL 慢 日 志 进 行 了 改进 ， 会 记录 慢 日 志 中 的 查询 是 否 
询 缓 存 。 


ma 
ap 


中 


It 


第 8 章 ”优化 服务 器 设置 


在 这 一 章 ， 我 们 将 解释 为 MySQL 服 务 器 创建 一 个 靠 谱 的 配置 文件 
的 过 程 。 这 是 一 个 很 绕 的 过 程 ， 有 很 多 有 意思 的 关注 点 和 值得 关注 的 
思路 。 关 注 这 些 点 很 有 必要 ， 因 为 创建 一 个 好 配置 的 最 快 方法 不 是 从 
学 习 配 置 项 开始 ， 也 不 是 从 问 哪个 配置 项 应 该 怎么 设置 或 者 怎么 修改 
开始 ， 更 不 是 从 检查 服务 器 行为 和 询问 哪个 配置 项 可 以 提升 性 能 
台 。 最 好 是 从 理解 MySQL 内 核 和 行为 开始 。 然 后 可 以 利用 这 些 知 识 来 
指导 配置 MySQL。 最 后 ， 可 以 将 想 要 的 配置 和 当前 配置 进行 比较 ， 然 
后 纠正 重要 并 且 有 价值 的 不 同 之 处 。 


人 们 经 常 问 ，“ 我 的 服务 器 有 32GB 内 存 ，12 核 CPU ， 怎 样 配置 最 
好 ? ”很 遗憾 ， 问 题 没 这 么 简单 。 服 务 器 的 配置 应 该 符合 它 的 工作 负 
载 、 数 据 ， 以 及 应 用 需求 ， 并 不 仅仅 看 人 硬件 的 情况 。 


MySQL 有 大 量 可 以 修改 的 参数 一 一 但 不 应 该 随便 去 修改 。 通 常 只 
需要 把 基本 的 项 配置 正确 〈 大 部 分 情况 下 只 有 很 少 一 些 参数 是 真正 重 
要 的 ) ， 应 该 将 更 多 的 时 间 人 花 在 schema 的 优化 、 索 引 ， 以 及 查询 设计 
上 。 在 正确 地 配置 了 MySQL 的 基本 配置 项 之 后 ， 再 化 力气 去 修改 其 他 
配置 项 的 收益 通常 就 比较 小 了 。 


从 另 一 方面 来 说 ， 没 用 的 配置 导致 潜在 风险 的 可 能 更 大 。 我 们 辜 
到 过 不 止 一 个 "高度 调 优 ? 过 的 服务 器 不 停 地 骨 溃 ， 停 止 服务 或 者 运行 
缓慢 ， 结 果 都 是 因为 错误 的 配置 导致 的 。 我 们 将 花 一 点 时 间 来 解释 为 
什么 会 发 生 这 种 情况 ， 并 且 告 诉 大 家 什么 是 不 该 做 的 。 


那么 什么 是 该 做 的 呢 ? 确保 基本 的 配置 是 正确 的 ， 例 如 InnoDB 的 
Buffer Pool 和 日 志文 件 缓存 大 小 ， 如 果 想 防止 出 问题 (提醒 一 下 ， 这 


样 做 通常 不 能 提升 性 能 一 一 它们 只 能 避免 问题 ) ， 就 设置 一 个 比较 安 
全 和 稳健 的 值 ， 剩 下 的 配置 就 不 用 管 了 。 如 果 辜 到 了 问题 ， 可 以 使 用 
第 3 章 提 到 的 技巧 小 心地 进行 诊断 。 如 果 问 题 是 由 于 服务 器 的 某 部 分 导 
致 的 ， 而 这 恰好 可 以 通过 某 个 配置 项 解决 ， 那 么 需要 做 的 就 是 更 改 配 
置 。 


有 时 候 ， 在 某 些 特定 的 场景 下 ， 也 有 可 能 设置 某 些 特殊 的 配置 项 
会 有 显著 的 性 能 提升 。 但 无 论 如 何 ， 这 些 特殊 的 配置 项 不 应 该 成 为 服 
务 器 基本 配置 文件 的 一 部 分 。 只 有 当 发 现 特定 的 性 能 问题 才 应 该 设置 
它们 。 这 就 是 为 什么 我 们 不 建议 通过 寻找 有 问题 的 地 方 修改 配置 项 的 
原因 。 如 果 有 些 地 方 确实 需要 提升 ， 也 需要 在 查询 响应 时 间 上 有 所 体 
现 。 最 好 是 从 查询 语句 和 响应 时 间 入 手 来 开始 分 析 问 题 ， 而 不 是 通过 
配置 项 。 这 可 以 节省 大 量 的 时 间 ， 避 免 很 多 的 问题 。 


另 一 个 节省 时 间 和 避免 麻烦 的 好 办 法 是 使 用 默认 配置 ， 除 非 是 明 
确 地 知道 默认 值 会 有 问题 。 很 多 人 都 是 在 默认 配置 下 运行 的 ， 这 种 情 
况 非 常 普遍 。 这 使 得 默认 配置 是 经 过 最 多 实际 测试 的 。 对 配置 项 做 一 
些 不 必要 的 修改 可 能 会 遇 到 一 些 意料 之 外 的 bug。 


8.1 MySQL 配置 的 工作 原理 


在 讨论 如 何 配置 MySQL 之前， 我 们 先 来 解释 一 下 MySQL 的 配置 
机 制 。MySQL 对 配置 要 求 非常 宽松 ， 但 是 下 面 这 些 建议 可 能 会 为 你 节 
省 大 量 的 工作 和 时 间 。 


首先 应 该 知道 的 是 MySQL 从 哪里 获得 配置 信息 : 命令 行 参 数 和 配 
置 文件 。 在 类 UNIX 系统 中 ， 配 置 文件 的 位 置 一 般 在 /etc/my.cnf 或 


/etc/mysql/my.cnfo 如 果 使 用 操作 系统 的 启动 脚本 ， 这 通常 是 唯一 指 
定 配置 设置 的 地 方 。 如 果 手 动 启动 MySQL ， 例 如 在 测试 安装 时 ， 也 可 
以 在 命令 行 指定 设置 。 实 际 上 ， 服 务 器 会 读 取 配 置 文件 的 内 容 ， 删 除 
所 有 注释 和 换行 ， 然 后 和 命令 行 选项 一 起 处 理 。 


Gas 
项 和 变量 替换 使 用 。 大 部 分 变量 和 它们 对 应 的 命令 行 选项 名 称 一 样 ， 但 是 有 一 些 例外 。 例 


关于 术语 的 说 明 : 因为 很 多 MySQL 命 令 行 选项 跟 服务 器 变量 相同 ， 我 们 有 时 把 选 


如 ，--memlock 选 项 设置 了 locked_in_memory 变 量 。 


任何 打算 长 期 使 用 的 设置 都 应 该 写 到 全 局 配置 文件 ， 而 不 是 在 命 
令 行 特别 指定 。 否 则 ， 如 果 偶 然 在 启动 时 乐 了 设置 就 会 有 风险 。 把 所 
有 的 配置 文件 放 在 同一 个 地 方 以 方便 检查 也 是 个 好 办 法 。 


一 定 要 清楚 地 知道 服务 器 配置 文件 的 位 置 ! 我 们 见 过 有 些 人 尝试 
修改 配置 文件 但 是 不 生效 ， 因 为 他 们 修改 的 并 不 是 服务 器 读 取 的 文 
件 ， 例 如 Debian 下 ，/etc/mysqlmy.cnf 才 是 MySQL 读 取 的 配置 文件 ， 而 
不 是 /etomycnf 有 时 候 好 几 个 地 方 都 有 配置 文件 ， 也 许 是 因为 之 前 的 
系统 管理 员 也 没 搞 清楚 情况 (因此 在 各 个 可 能 的 位 置 都 放 了 一 份 ) 。 
如 果 不 知 道 当 前 使 用 的 配置 文件 路 径 ， 可 以 尝试 下 面 的 操作 : 


$ which mysqld 
/usr/sbin/mysqld 
$ /usr/sbin/mysqld --verbose --help | grep -A 1 'Default 
options' 
Default options are read from the following files in the 
given order: 


/etc/mysql/my.cnf ~/.my.cnf /usr/etc/my.cnf 


对 于 服务 器 上 只 有 一 个 MySQL 实 例 的 典型 安装 ， 这 个 命令 很 有 
用 。 也 可 以 设计 更 复杂 的 配置 ， 但 是 没有 标准 的 方法 告诉 你 怎么 来 
做 。MYySQL 发 行 版 包含 了 一 个 现在 废弃 了 的 程序 ， 叫 mysqlmanager， 
可 以 在 一 个 有 多 个 独立 部 分 的 配置 文件 上 运行 多 个 实例 。 (现在 已 经 
被 一 样 古老 的 mysqld_multi 脚 本 替代 。) 然而 许多 操作 系统 发 行 版 本 
在 启动 脚本 中 并 不 包含 或 使 用 这 个 程序 。 实 际 上 ， 很 多 系统 甚至 没有 
使 用 MySQL 提 供 的 启动 脚本 。 


配置 文件 通常 分 成 多 个 部 分 ， 每 个 部 分 的 开头 是 一 个 用 方 括号 括 
起 来 的 分 段 名 称 。MySQL 程 序 通 常 读 取 跟 它 同 名 的 分 段 部 分 ， 许 多 客 
户 端 程序 还 会 读 取 dlient 部 分 ， 这 是 一 个 存放 公用 设置 的 地 方 。 服 务 器 
通常 读 取 mysqld 这 一 段 。 一 定 要 确认 配置 项 放 在 了 文件 正确 的 分 段 
中 ， 否 则 配置 是 不 会 生效 的 。 


8.1.1 语法、 作用 域 和 动态 性 


配置 项 设置 都 使 用 小 写 ， 单 词 之 间 用 下 男 线 或 模 线 隔 开 。 下 面 的 
例子 是 等 价 的 ， 并 且 可 能 在 命令 行 和 配置 文件 中 都 看 到 这 两 种 格式 : 


/usr/sbin/mysqld --auto-increment-offset=5 


/usr/sbin/mysqld --auto-increment-offset=5 


我 们 建议 使 用 一 种 固定 的 风格 。 这 样 在 配置 文件 中 搜索 配置 项 时 
会 容易 得 多 。 


配置 项 可 以 有 多 个 作用 域 。 有 些 设置 是 服务 器 级 的 (全 局 作用 
域 ) ， 有 些 对 每 个 连接 是 不 同 的 〈 会 话 作 用 域 ) ， 剩 下 的 一 些 是 对 象 
级 的 。 许 多 会 话 级 变量 跟 全 局 变量 相等 ， 可 以 认为 是 默认 值 。 如 果 改 
变 会 话 级 变量 ， 它 只 影响 改动 的 当前 连接 ， 当 连接 关闭 时 所 有 参数 变 
更 都 会 失效 。 下 面 有 一 些 例子 ， 你 应 该 清楚 这 些 不 同类 型 的 行为 : 


e query_cache_sizey 变 量 是 全 局 的 。 

。 sort_buffer_sizey 变 量 默认 是 全 局 相同 的 ， 但 是 每 个 线程 里 也 可 以 
设置 。 

。 join_buffer_sizey 变 量 也 有 全 局 默认 值 且 每 个 线程 是 可 以 设置 的 ， 
但 是 若 一 个 查询 中 关联 多 张 表 ， 可 以 为 每 个 关联 分 配 一 个 关联 缓 
冲 (join buffer) ， 所 以 每 个 查询 可 能 有 多 个 关联 缓冲 。 


另外 ， 除 了 在 配置 文件 中 设置 变量 ， 有 很 多 变量 (但 不 是 所 有 ) 
也 可 以 在 服务 器 运行 时 修改 。MySQL 把 这 些 归 为 动态 配置 变量 。 下 面 
的 语句 展示 了 动态 改变 sort_buffer _ size 的 会 话 值 和 全 局 值 的 不 同方 式 : 


SET sort_buffer_size = <value>; 
SET GLOBAL sort_buffer_size = <value>; 
SET @@sort_buffer_size := <value>; 
SET @@session.sort_buffer_size := <value>; 


SET @@global.sort_buffer_size := <value>; 


如 果 动 态 地 设置 变量 ， 要 注意 MySQL 关 闭 时 可 能 丢失 这 些 设 
如 果 想 保持 这 些 设置 ， 还 是 需要 修改 配置 文件 。 


如 果 在 服务 器 运行 时 修改 了 变量 的 全 局 值 ， 这 个 值 对 当前 会 话 和 
其 他 任何 已 经 存在 的 会 话 都 不 起 效果 ， 这 是 因为 会 话 的 变量 值 是 在 连 
接 创建 时 从 全 局 值 初 始 化 来 的 。 在 每 次 变更 之 后 ， 应 该 检查 SHOW 
GLOBAL VARIABLES 的 输出 ， 确 认 已 经 按照 期 望 变 更 了 。 


有 些 变量 使 用 了 不 同 的 单位 ， 所 以 必须 知道 每 个 变量 的 正确 单 
位 。 例 如 ，table_cache 变 量 指定 了 表 可 以 被 缓存 的 数量 ， 而 不 是 表 可 
以 被 缓存 的 字 节 数 。key_buffer_size 则 是 以 字 节 为 单位 ， 还 有 一 些 其 他 
变量 指定 的 是 页 的 数量 或 者 其 他 单位 ， 例 如 百分比 。 


许多 变量 可 以 通过 后 缀 指定 单位 ， 例 如 1M 表 示 一 百 万 字 节 。 然 
而 ， 这 只 能 在 配置 文件 或 者 作为 命令 行 参数 时 有 效 。 当 使 用 SQL 的 
SET 命令 时 ， 必 须 使 用 数字 值 1048576 ， 或 者 1024*1024 这 样 的 表达 
式 。 但 在 配置 文件 中 不 能 使 用 表达 式 。 


有 个 特殊 的 值 可 以 通过 SET 命令 赋值 给 变量 : DEFAULT。 把 这 个 
值 赋 给 会 话 级 变量 可 以 把 变量 改 为 使 用 全 局 值 ， 把 它 赋值 给 全 局 变量 
可 以 设置 这 个 变量 为 编译 内 置 的 默认 值 (不 是 在 配置 文件 中 指定 的 
值 ) 。 当 需要 重 置 会 话 级 变量 的 值 回 到 连接 刚 打开 的 时 候 ， 这 是 很 有 
用 的 。 建 议 不 要 对 全 局 变量 这 么 用 ， 因 为 可 能 它 做 的 事 不 是 你 希望 
的 ， 它 不 会 把 值 设置 到 服务 器 刚 启 动 时 候 的 那个 状态 。 


8.1.2 ”设置 变量 的 副作用 


动态 设置 变量 可 能 导致 意外 的 副作用 ， 例 如 从 缓冲 中 刷新 脏 块 。 
务必 小 心 那 些 可 以 在 线 更 改 的 设置 ， 因 为 它们 可 能 导致 数据 库 做 大 量 
的 工作 。 


有 时 可 以 通过 名 称 推断 一 个 变量 的 作用 。 例 如 ， 
max_heap_table_size 的 作用 就 像 听 起 来 那样 : 它 指定 隐 式 内 存 临 时 表 
最 大 允许 的 大 小 。 然 而 ， 命 名 约定 并 不 完全 一 样 ， 所 以 不 能 总 是 通过 
看 名 称 来 猜测 一 个 变量 有 什么 效果 。 


让 我 们 来 看 一 些 常 用 的 变量 和 动态 修改 它们 的 效果 。 
key_buffer_size 


设置 这 个 变量 可 以 一 次 性 为 键 缓冲 区 (key buffer， 也 叫 键 组 
存 key cache) 分 配 所 有 指定 的 空间 。 然 而 ， 操 作 系 统 不 会 真 的 立 
刻 分 配 内 存 ， 而 是 到 使 用 时 才 真 正 分 配 。 例 如 设置 键 缓冲 的 大 小 
为 1GB， 并 不 意味 着 服务 器 立刻 分 配 1GB 的 内 存 。 (我 们 下 一 章 
会 讨论 如 何 查看 服务 器 的 内 存 使 用 。) 


MySQL 人 允许 创建 多 个 键 缓存 ， 这 一 章 后 面 我 们 会 探讨 这 个 间 
题 。 如 果 把 非 默认 键 缓存 的 这 个 变量 设置 为 0% ，MySQL 将 丢弃 组 
存在 该 键 缓存 中 的 索引 ， 转 而 使 用 默认 键 缓 存 ， 并 且 当 不 再 有 任 
何 引 用 时 会 删除 该 键 缓存 。 为 一 个 不 存在 的 键 缓存 设置 这 个 变 
量 ， 将 会 创建 新 的 键 缓存 。 对 一 个 已 经 存在 的 键 缓存 设置 非 零 
值 ， 会 导致 刷新 该 键 缓存 的 内 容 。 这 会 阻塞 所 有 党 试 访问 该 键 缓 
存 的 操作 ， 直 到 刷新 操作 完成 。 


table_cache_ size 


设置 这 个 变量 不 会 立即 生效 一 一 会 延迟 到 下 次 有 线程 打开 表 
才 有 效果 。 当 有 线程 打开 表 时 ，MySQL 会 检查 这 个 变量 的 值 。 如 
果 值 大 于 缓存 中 的 表 的 数量 ， 线 程 可 以 把 最 新 打开 的 表 放 入 组 


存 ; 如 果 值 比 缓存 中 的 表 数 小 ，MySQL 将 从 缓存 中 删除 不 常 使 用 
的 表 。 


thread cache size 


设置 这 个 变量 不 会 立即 生效 一 一 将 在 下 次 有 连接 被 关闭 时 产 
生效 果 。 当 有 连接 被 关闭 时 ，MySQL 检 查 缓存 中 是 否 还 有 空间 来 
缓存 线程 。 如 果 有 空间 ， 则 缓存 该 线程 以 备 下 次 连接 重用 ;如 果 
没有 空间 ， 它 将 销毁 该 线程 而 不 再 缓存 。 在 这 个 场景 中 ， 缓 存 中 
的 线程 数 ， 以 及 线程 缓存 使 用 的 内 存 ， 并 不 会 立刻 减少 ， 只 有 在 
新 的 连接 删除 缓存 中 的 一 个 线程 并 使 用 后 才 会 减少 。 (MySQL 只 
在 关闭 连接 时 才 在 缓存 中 增加 线程 ， 只 在 创建 新 连接 时 才 从 缓存 
中 删除 线程 。) 


query_cache_size 


MySQL 在 启动 的 时 候 ， 一 次 性 分 配 并 且 初 始 化 这 块 内 存 。 如 
果 修 改 这 个 变量 〈 即 使 设置 为 与 当前 一 样 的 值 ) ，MySQL 会 立刻 
删除 所 有 缓存 的 查询 ， 重 新 分 配 这 片 缓存 到 指定 大 小 ， 并 且 重 新 
初始 化 内 存 。 这 可 能 人 花费 较 长 的 时 间 ， 在 完成 初始 化 之 前 服务 器 
都 无 法 提供 服务 ， 因 为 MySQL 是 逐个 清理 缓存 的 查询 ， 不 是 一 次 
性 全 部 删 掉 。 


read_buffer_size 


MySQL 只 会 在 有 碍 询 需 要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 
且 会 一 次 性 分 配 该 参数 指定 大 小 的 全 部 内 存 。 


read_rnd buffer _ size 


MySQL 只 会 在 有 查询 需要 使 用 时 才 会 为 该 缓存 分 配 内 存 ， 并 
且 只 会 分 配 需 要 的 内 存 大 小 而 不 是 全 部 指定 的 大 小 。 
(max_read_rnd_buffer_size 这 个 名 字 更 能 表达 这 个 变量 实际 的 含 


Xo ) 
sort_buffer_size 


MySQL 只 会 在 有 得 询 需要 做 排序 操作 时 才 会 为 该 缓存 分 配 内 
存 。 然 后 ， 一 旦 需要 排序 ，MySQL 就 会 立刻 分 配 该 参数 指定 大 小 
的 全 部 内 存 ， 而 不 管 该 排序 是 否 需要 这 么 大 的 内 存 。 


我 们 在 其 他 地 方 也 对 这 些 参数 做 过 更 多 细节 的 说 明 ， 这 里 不 是 一 
个 完整 的 列表 。 这 里 的 目的 只 是 简单 地 告诉 大 家 ， 当 修改 一 些 常 见 的 
变量 时 ， 会 有 哪些 期 望 的 行为 发 生 。 


对 于 连接 级 别 的 设置 ， 不 要 轻易 地 在 全 局 级 别 增加 它们 的 值 ， 除 
非 确认 这 样 做 是 对 的 。 有 一 些 缓存 会 一 次 性 分 配 指定 大 小 的 全 部 内 
存 ， 而 不 管 实际 上 是 否 需要 这 么 大 ， 所 以 一 个 很 大 的 全 局 设置 可 能 导 
致 浪费 大 量 内 存 。 更 好 的 办 法 是 ， 当 查询 需要 时 在 连接 级 别 单独 调 大 
这 些 值 。 


最 常见 的 例子 是 sort_buffer size， 该 参数 控制 排序 操作 的 缓存 大 
小 ， 应 该 在 配置 文件 里 把 它 配置 得 小 一 些 ， 然 后 在 某 些 查询 需要 排序 
时 ， 再 在 连接 中 把 它 调 大 。 在 分 配 内 存 后 ， MySQL 会 执行 一 些 初始 化 
的 工作 。 


另外 ， 即 使 是 非常 小 的 排序 操作 ， 排 序 缓存 也 会 分 配 全 部 大 小 的 
内 存 ， 所 以 如 果 把 参数 设置 得 超过 平均 排序 需求 太 多 ， 将 会 浪费 很 多 
内 存 ， 增 加 额外 的 内 存 分 配 开 销 。 许 多 读者 认为 内 存 分 配 是 一 个 很 简 


单 的 操作 ， 了 听 到 内 存 分 配 的 代价 可 能 会 很 吃惊 。 不 需要 深入 很 多 技术 
细节 就 可 以 讲 清楚 为 什么 内 存 分 配 也 是 昂贵 的 操作 ， 内 存 分 配 包 括 了 
地 址 空间 的 分 配 ， 这 相对 来 说 是 比较 昂贵 的 。 特 别 在 Linux 上 ， 内 存 分 
配 根据 大 小 使 用 多 种 开销 不 同 的 策略 。 


总 的 来 说 ， 设 置 很 大 的 排序 缓存 代价 可 能 非常 高 ， 所 以 除非 确定 
必须 要 这 么 大 ， 否 则 不 要 增加 排序 缓存 的 大 小 。 


如 果 查 询 必 须 使 用 一 个 更 大 的 排序 缓存 才能 比较 好 地 执行 ， 可 以 
在 查询 执行 前 增加 sort_buffer size 的 值 ， 执 行 完成 后 恢复 为 
DEFAULT» 


下 面 是 一 个 实际 的 例子 : 


SET @@session.sort_buffer_size := >value>; 
- Execute the query... 


SET @@session.sort_buffer_size := DEFAULT; 


可 以 将 类 似 的 代码 封装 在 函数 中 以 方便 使 用 。 其 他 可 以 设置 的 单 
个 连接 级 别 的 变量 有 read buffer size 、 read_md_buffer_size ~ 
tmp_table_size、 以 及 myisam_sort_buffer_size (在 修复 表 的 操作 中 会 用 


到 ) 。 


如 果 有 需要 也 可 以 保存 并 还 原 原 来 的 自 定义 值 ， 可 以 像 下 面 这 样 
做 : 


SET @saved_<unique_variable_name> 


@@session.sort_buffer_size; 
SET @@session.sort_buffer_size := <value>; 
-- Execute the query... 
SET @@session.sort_buffer_size = 
@saved_<unique_variable_name>; 


p .排序 缓冲 大 小 是 关注 的 众多 " 调 优 "中 一 个 设置 。 一 些 人 似乎 认为 越 大 赵 好 ， 我 人 


uw 
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甚至 见 过 把 这 个 变量 设 为 1GB 的 。 这 可 能 导致 服务 器 尝试 分 配 太 多 内 存 而 月 演 ， 或 者 为 查询 
初始 化 排序 缓存 时 消耗 大 量 的 CPU， 这 不 是 什么 出 乎 意料 的 事 。 从 MySQL 的 Bug 37359 可 以 看 
到 有 关于 这 个 问题 的 细节 。 


不 要 把 排序 缓存 大 小 放 在 太 重 要 的 位 置 。 查 询 真 的 需要 128MB 的 内 存 来 排序 10 行 数据 然 
后 返回 给 客户 端 吗 ?” 思 考 一 下 查询 语句 是 什么 类 型 的 排序 、 多 大 的 排序 ， 首 先 考虑 通过 索引 
和 SQL 写法 来 避免 排序 (看 第 5 章 和 第 6 章 ) ， 这 比 调 优 排序 缓存 要 快 得 多 。 并 且 应 该 仔细 分 
析 查 询 开销 ， 看 看 排序 是 否 是 无 论 如 何 都 需要 重点 关注 的 部 分 。 第 3 章 有 一 个 例子 ， 一 个 查询 
执行 了 一 个 排序 ， 但 是 没有 花 很 多 排序 时 间 。 


8.1.3 ATI 


设置 变量 时 请 小 心 ， 并 不 是 值 越 大 就 越 好 ， 而 且 如 果 设 置 的 值 太 
高 ， 可 能 更 容易 导致 问题 : 可 能 会 由 于 内 存 不 足 导致 服务 器 内 存 区 
换 ， 或 者 起 过 地 址 空间 。 


应 该 始终 通过 监控 来 确认 生产 环境 中 变量 的 修改 ， 是 提高 还 是 降 
低 了 服务 器 的 整体 性 能 。 基 准 测 试 是 不 够 的 ， 因 为 基准 测试 不 是 真实 
的 工作 负载 。 如 果 不 对 服务 器 的 性 能 进行 实际 的 测量 ， 可 能 性 能 降低 
了 都 没有 发 现 。 我 们 见 过 很 多 情况 ， 有 人 修改 了 服务 器 的 配置 ， 并 认 


为 它 提高 了 性 能 ， 其 实 服务 器 的 整体 性 能 恶化 了 ， 因 为 在 一 个 星期 或 
一 天 的 不 同时 间 ， 工 作 负载 是 不 一 样 的 。 


如 果 你 经 单 做 笔记 ， 在 配置 文件 中 写 好 注释 ， 可 能 会 节省 目 己 
(和 同事 ) 大 量 的 工作 。 一 个 更 好 的 主意 是 把 配置 文件 置 于 版 本 控制 
之 下 。 无 论 如 何 ， 这 是 一 个 很 好 的 做 法 ， 因 为 它 让 你 有 机 会 撤销 变 
更 。 要 降低 管理 很 多 配置 文件 的 复杂 性 ， 简 单 地 创建 一 个 从 配置 文件 
到 中 央 版 本 控制 库 的 符号 链接 。 


在 开始 改变 配置 之 前 ， 应 该 优化 查询 和 schema， 至 少 先 做 明显 要 
做 的 事情 ， 例 如 添加 索引 。 如 果 先 深入 调整 配置 ， 然 后 修改 了 查询 语 
句 和 schema， 也 许 需 要 回头 再 次 评估 配置 。 请 记 住 ， 除 非 硬件 、 工 作 
负载 和 数据 是 完全 静态 的 ， 否 则 都 可 能 需要 重新 检查 配置 文件 。 实 际 
上 ， 大 部 分 人 的 服务 器 甚至 在 一 天 中 都 没有 稳定 的 工作 负载 一 意味 
着 对 上 午 来 说 “完美 的 配置 ， 下 午 就 不 对 了 ! 显然 ， 追 求 传 说 中 的 “ 完 
美 ?配置 是 完全 不 切实 际 的 。 因 此 ， 没 有 必要 榨 干 服务 器 的 每 一 点 性 
能 ， 实 际 上 ， 这 种 调 优 的 时 间 投 入 产 出 是 非常 小 的 。 我 们 建议 在 “足够 
好 ”的 时 候 就 可 以 停 下 了 ， 除 非 有 理由 相信 停 下 会 导致 放弃 重大 的 性 能 
提升 的 机 会 。 


8.1.4 ”通过 基准 测试 迭代 优化 


你 也 许 期 望 (或 者 相信 自己 会 期 望 ) 通 过 建立 一 套 基 准 测试 方 
案 ， 然 后 不 断 达 代 地 验证 对 配置 项 的 修改 来 找到 最 佳 配 置 方 案 。 通 常 
我 们 都 不 建议 大 家 这 么 做 。 这 需要 做 非常 多 的 工作 和 研究 ， 并 且 大 部 
分 情况 下 潜在 的 收益 是 非常 小 的 ， 这 可 能 导致 巨 大 的 时 间 浪 费 。 而 把 


时 间 花 在 检查 备份 、 监 控 执行 计划 的 变动 之 类 的 事情 上 ， 可 能 会 更 有 


ax \\ 
意义 。 


即使 更 改 一 个 选项 后 基准 测试 出 现 了 提升 ， 也 无 法 知道 长 期 运行 
后 这 个 变更 会 有 什么 副作用 。 基 准 测试 也 不 能 衡量 一 切 ， 或 者 没有 运 
行 足够 长 的 时 间 来 检测 系统 的 长 期 稳定 性 ， 修 改 就 可 能 导致 如 周期 性 
性 能 抖动 或 者 周期 性 的 慢 碍 询 等 问题 。 这 是 很 难 察觉 到 的 。 


有 的 时 候 我 们 运行 某 些 组 合 的 基准 测试 ， 来 仔细 验证 或 压 测 服务 
器 的 某 些 特定 部 分 ， 使 得 我 们 可 以 更 好 地 理解 这 些 行 为 。 一 个 很 好 的 
例子 是 ， 我 们 使 用 了 很 多 年 的 一 些 基准 测试 ， 用 来 理解 InnoDB 的 刷新 
行为 ， 来 寻找 更 好 的 刷新 算法 ， 以 适应 多 种 工作 负载 和 多 种 硬件 类 
型 。 我 们 经 常 测试 各 种 各 样 的 设置 ， 来 理解 它们 的 影响 以 及 怎么 优化 
它们 。 但 这 不 是 一 件 简单 的 事 一 一 这 可 能 会 花费 很 多 天 甚至 很 多 个 星 
期 一 一 而 且 对 大 部 分 人 来 说 这 没有 收益 ， 因 为 服务 器 特定 部 分 的 认识 
局 限 往往 会 掩盖 了 其 他 问题 。 例 如 ， 有 时 我 们 发 现 ， 特 定 的 设置 项 组 
合 ， 在 特定 的 边缘 场景 可 能 有 更 好 的 性 能 ， 但 是 在 实际 生产 环境 这 些 
配置 项 并 不 真 的 合适 ， 例 如 ， 滔 费 大 量 的 内 存 ， 或 者 优化 了 吞吐 量 却 
忽略 了 月 并 恢复 的 影响 。 


如 果 必 须 这 样 做 ， 我 们 建议 在 开始 配置 服务 器 之 前 ， 开 发 一 个 定 
制 的 基准 测试 色 。 你 必须 做 这 些 事情 来 包含 所 有 可 能 的 工作 负载 ， 甚 
至 包含 一 些 边缘 的 场景 ， 例 如 很 庞大 很 复杂 的 查询 语句 。 在 实际 的 数 
据 上 重 放 工作 负载 通常 是 一 个 好 办 法 。 如 果 已 经 定位 到 了 一 个 特定 的 
问题 点 一 一 例如 一 个 查询 语句 运行 很 慢 一 一 也 可 以 尝试 专门 优化 这 个 
点 ， 但 是 可 能 不 知道 这 会 对 其 他 查询 有 什么 负面 影响 。 


最 好 的 办 法 是 一 次 改变 一 个 或 两 个 变量 ， 每 次 一 点 点 ， 每 次 更 改 
后 运行 基准 测试 ， 确 保 运行 足够 长 的 时 间 来 确认 性 能 是 否 稳定 。 有 时 
结果 可 能 会 令 你 感到 惊讶 ， 可 能 把 一 个 变量 调 大 了 一 点 ， 观 察 到 性 能 
提升 ， 然 后 再 调 大 一 点 ， 却 发 现 性 能 大 幅 下 降 。 如 果 变 更 后 性 能 有 隐 
患 ， 可 能 是 某 些 资源 用 得 太 多 了 ， 例 如 ， 为 缓冲 区 分 配 太 多 内 人 存 、 频 
每 地 申请 和 释放 内 人 存 。 另 外 ， 可 能 导致 MySQL 和 操作 系统 或 硬件 之 间 
的 不 匹配 。 例 如 ， 我 们 发 现 sort_buffer_size 的 最 佳 值 可 能 会 被 CPU 缓存 
的 工作 方式 影响 ， 还 有 read_buffer_size 需 要 服务 器 的 预 读 和 IO 子 系统 
的 配置 相 匹 配 。 更 大 并 不 总 是 更 好 ， 还 可 能 更 糟糕 。 一 些 变 量 也 依赖 
于 一 些 其 他 的 东西 ， 这 需要 通过 经 验 和 对 系统 架构 的 理解 来 学 习 。 


什么 情况 下 进行 基准 测试 是 好 的 建议 


对 于 前 面 提 到 不 建议 大 多 数 人 执行 基准 测试 的 情况 也 有 例外 的 
时 候 。 我 们 有 时 会 建议 人 们 跑 一 些 迭 代 基 准 测 试 ， 尽 管 通 尝 跟 “ 服 
务 器 调 优 ” 有 不 同 的 内 容 。 这 里 有 一 些 例子 : 


。 如 果 有 一 笔 大 的 投资 ， 如 购买 大 量 新 的 服务 器 ， 可 以 运行 一 下 
基准 测试 以 了 解 硬件 需求 。 (这 里 的 上 下 文 指 是 容量 规划 ,不 
是 服务 器 调 优 ) ， 我 们 特别 喜欢 对 不 同 大 小 的 InnoDB 缓 冲 池 进 
行 基准 测试 ， 这 有 助 于 我 们 制定 一 个 “内 存 曲线 ”"， 以 展示 真正 
需要 多 少 内 存 ， 不 同 的 内 存 容量 如 何 影 响 存储 系统 的 要 求 。 

如 果 想 了 解 InnoDB 从 朋 并 中 恢复 需要 多 久 时 间 ， 可 以 反复 设置 
一 个 备 库 ， 故 意 让 它 崩 演 ， 然 后 “测试 *InnoDB 在 重启 中 需要 花 
费 多 久 时 间 来 做 恢复 。 这 里 的 背景 是 做 高 可 用 性 的 规划 。 


。 以 读 为 主 的 应 用 程序 ， 在 慢 查询 日 志 中 捕捉 所 有 的 查询 (或 者 
用 pt-query-digest 分 析 TCP 流 量 ) 是 个 很 好 的 主意 ， 在 服务 器 完 
全 打开 慢 查 询 日 志 记 录 时 ， 使 用 ptlog-player 重 放 所 有 的 慢 查 
询 ， 然 后 用 pt-query-digest 来 分 析 输 出 报告 。 这 可 以 观察 在 不 同 
硬件 、 软 件 和 服务 器 设置 下 ， 查 询 语 句 运 行 的 情况 。 例 如 ， 我 
们 曾经 帮助 客户 评估 迁移 到 更 多 的 内 存 但 硬盘 更 慢 的 服务 器 上 
ee E 变 化 。 大 多 数 查 询 变 得 更 快 ， 但 一 些 分 析 型 查询 语句 变 

， 因 为 它们 是 IO 密集 型 的 。 这 个 测试 的 上 下 文 背景 就 是 不 同 
工作 负载 的 比较 。 


8.2 ”什么 不 该 做 


在 我 们 开始 配置 服务 器 之 前 ， 和 希望 鼓励 大 家 去 避免 一 些 我 们 已 经 
发 现 有 风险 或 有 害 的 做 法 。 和 警告 ;本 节 有 些 观点 可 能 会 让 有 些 人 不 舒 
服 ! 


首先 ， 不 要 根据 一 些 “ 比 率 ” 来 调 优 。 一 个 经 典 的 按 “比率 ” 调 优 的 
经 验 法 则 是 ， 键 缓存 的 命中 率 应 该 高 于 某 个 百分比 ， 如 果 命 中 率 过 
低 ， 则 应 该 增加 缓存 的 大 小 。 这 是 非常 错误 的 意见 。 无 论 别 人 怎么 跟 
你 说 ， 缓 存 命中 率 跟 缓存 是 否 过 大 或 过 小 没有 关系 。 首 先 ， 命 中 率 取 
决 于 工作 负载 一 一 某 些 工作 负载 就 是 无 法 缓存 的 ， 不 管 缓存 有 多 大 
其 次 ， 缓 存 命中 没有 什么 意义 ， 我 们 将 在 后 面 解释 原因 。 有 时 当 
缓存 太 小 时 ， 命 中 率 比 较 低 ， 增 加 缓存 的 大 小 确实 可 以 提高 命 
然而 ， 这 只 是 个 偶然 情况 ， 并 不 表示 这 与 性 能 或 适当 的 缓存 大 小 有 任 
何 天 系 。 


这 种 相关 性 ， 有 时 候 看 起 来 似乎 真正 的 问题 是 ， 人 们 开始 相信 它 
们 将 永远 是 真 的 。Oracle DBA 很 多 年 前 就 放弃 了 基于 命中 率 的 调 优 ， 
我 们 希望 MySQL DBA 也 能 跟着 走 久 。 我 们 更 强烈 地 希望 人 们 不 要 去 写 
“ 调 优 脚本 ， 把 这 些 危 险 的 做 法 编写 到 一 起 ， 并 教导 成 干 上 万 的 人 这 
么 做 。 这 引出 了 我 们 第 二 个 不 该 做 的 建议 : 不 要 使 用 调 优 脚本 ! AIL 
个 这 样 的 可 以 在 互联 网 上 找到 的 脚本 非常 受 欢 迎 ， 最 好 是 忽略 它们 


(3), 


我 们 还 建议 避免 调 (tuning) 这 个 词 ， 我 们 在 前 面 几 段 中 使 用 这 
个 词 是 有 点 随意 的 。 我 们 更 喜欢 使 用 “配置 (Configuration) ”或 “优化 
(Optimize) ”来 代替 (只 要 这 是 你 真正 在 做 的 ， 见 第 3 章 ) 。“ 调 优 ” 
这 个 词 ， 容 易 让 人 联想 到 一 个 缺乏 纪律 的 新 手 对 服务 器 进行 微调 ， 并 
观察 发 生 了 什么 。 我 们 建议 上 一 节 的 练习 最 好 留 给 那些 正在 研究 服务 
器 内 核 的 人 。“ 调 优 ” 服 务 器 可 能 浪费 大 量 的 时 间 ]。 


另外 说 一 句 ， 在 互联 网 搜索 如 何 配置 并 不 总 是 一 个 好 主意 。 在 博 
客 、 论 坛 等 地 方 久 都 可 能 找到 很 多 不 好 的 建议 。 虽 然 许 多 专家 在 网 上 
贡献 了 他 们 了 解 的 东西 ， 但 并 不 总 是 能 容易 地 分 辨 出 哪些 是 正确 的 建 
议 。 我 们 也 不 能 给 出 中 肯 的 建议 在 哪里 能 找到 真正 的 专家 忠 。 但 我 们 
可 以 说 ， 可 信和 的 、 声 誉 好 的 MySQL 服 务 供应 商 一 般 比 简单 的 互联 网 搜 
索 更 安全 ， 因 为 有 好 的 客户 才 可 能 做 出 正确 的 事情 。 然 而 ， 即 使 是 他 
们 的 意见 ， 没 有 经 过 测试 和 理解 就 使 用 ， 也 可 能 有 危险 ， 因 为 它 可 能 
对 某 种 解决 方案 有 了 思维 定 势 ， 跟 你 的 思维 不 一 样 ， 可 能 用 了 一 种 你 
无 法 理解 的 方法 。 


最 后 ， 不 要 相信 很 流行 的 内 存 消 耗 公 式 一 一 是 的 ， 就 是 MySQL 骨 
演 时 自身 输出 的 那个 内 存 消耗 公式 (我 们 这 里 就 不 再 重复 了 ) 。 这 个 
公式 已 经 很 古老 了 ， 它 并 不 可 靠 ， 甚 至 也 不 是 一 个 理解 MySQL 在 最 差 


情况 下 需要 使 用 多 少 内 存 的 有 用 的 办 法 。 在 互联 网 上 可 能 还 会 看 到 这 
个 公式 的 很 多 变种 。 即 使 在 原 公 式 上 增加 了 更 多 原来 没有 考虑 到 的 因 
素 ， 还 是 有 同样 的 缺陷 。 事 实 上 不 可 能 非常 准确 地 把 握 MySQL 内 存 消 
耗 的 上 限 。MySQL 不 是 一 个 完全 严格 控制 内 存 分 配 的 数据 库 服务 器 。 
这 个 结论 可 以 非常 简单 地 证 明 ， 登 录 到 服务 器 ， 并 执行 一 些 大 量 消耗 
内 存 的 查询 : 


mysql> SET @crash_me_1 := REPEAT('a', 
@@max_allowed_packet) ; 
mysql> SET @crash_me_2 := REPEAT('a', 
@@max_allowed_packet) ; 
# ... run a lot of these ... 
mysql> SET @crash_me_1000000 := REPEAT('a', 


@@max_allowed_packet) ; 


在 一 个 循环 中 运行 这 些 语句 ， 每 次 都 创建 新 的 变量 ， 最 后 服务 器 
内 存 必 然 耗 尺 ， 然 后 系统 骨 溃 ! 运行 这 个 测试 不 需要 任何 特殊 权限 。 


在 本 节 我 们 试图 说 明 的 观点 是 ， 有 时 候 我 们 在 那些 认为 我 们 很 做 
慢 的 人 面前 变 得 不 受 欢 迎 ， 他 们 认为 我 们 正在 试图 诈 毁 他 人 ， 把 自己 
塑造 成 唯一 的 权威 ， 或 者 觉得 我 们 是 在 试图 推销 我 们 的 服务 。 我 们 的 
目的 不 是 利己 。 我 们 只 是 看 到 非常 多 很 糟 粽 的 建议 ， 如 果 疫 有 足够 的 
经 验 ， 这 看 上 去 似乎 还 是 合理 的 。 另 外 我 们 重复 这 么 多 次 说 明 这 些 糟 
糕 的 建议 ， 因 为 我 们 认为 揭穿 一 些 神话 是 很 重要 的 ， 并 提醒 我 们 的 读 
者 要 小 心 他 们 信任 的 那些 人 的 专业 水 准 。 我 们 还 是 尽量 避免 在 这 里 继 
续 说 这 些 不 好 听 的 吧 。 


8.3 ”创建 MySQL 配 置 文件 


正如 我 们 在 本 章 开 头 提 到 的 ， 没 有 一 个 适合 所 有 场景 的 “最 佳 配置 
文件 ”， 比 方 说 ， 对 一 台 有 16 GB 内 存 和 12 块 硬盘 的 4 路 CPU 服务 器 ， 不 
会 有 一 个 相应 的 “最 佳 配 置 文 件 ”。 应 该 开发 自己 的 配置 ， 因 为 即使 是 
一 个 好 的 起 点 ， 也 依赖 于 具体 是 如 何 使 用 服务 器 的 。 


MySQL 编 译 的 默认 设置 并 不 都 是 靠 谱 的 ， 虽 然 其 中 大 部 分 都 比较 
合适 。 它 们 被 设计 成 不 要 使 用 大 量 的 资源 ， 因 为 MySQL 的 使 用 目标 是 
非常 灵活 的 ， 它 并 没有 假设 自己 是 服务 器 上 唯一 的 应 用 。 默 认 情 况 
下 ，MySQL 只 是 使 用 恰好 足够 的 资源 来 启动 ， 运 行 一 些 少量 数据 的 简 
单 查询 。 如 果 有 超过 几 MB 的 数据 ， 就 一 定 会 需要 自己 定制 MySQL 配 
Bo 


你 可 能 会 先 从 一 个 包含 在 MySQL 发 行 版 本 中 的 示例 配置 文件 开 
始 ， 但 这 些 示例 配置 有 自己 的 问题 。 例 如 ， 它 们 有 很 多 注释 掉 的 设 
置 ， 可 能 会 诱 使 你 认为 应 该 选择 一 个 值 ， 并 取消 注释 (这 有 点 让 人 联 
想到 Apache 配 置 文件 ) 。 同 时 它们 有 很 多 之 味 的 注释 ， 只 是 为 了 解释 
选项 的 含义 ， 但 这 些 解释 并 不 总 是 通顺 、 完 整 甚 至 正确 的 ， 有 些 选 项 
甚至 并 不 适用 于 流行 的 操作 系统 ! 最 后 ， 这 些 示例 相对 于 现代 的 硬件 
和 工作 负载 ， 总 是 过 时 的 。 


MySQL 专 家 们 关于 如 何 解决 这 些 问题 多 年 来 进行 了 许多 对 话 ， 但 
这 些 问题 依然 存在 。 下 面 是 我 们 的 建议 : 不 要 使 用 这 些 文件 作为 (8 
建 配置 文件 的 ) 起 点 ， 也 不 要 使 用 操作 系统 的 安装 包 自 带 的 配置 文 
件 。 最 好 是 从 头 开始 。 


这 就 是 本 章 要 做 的 事情 。 实 际 上 MySQL 的 可 配置 性 太 强 也 可 以 说 
是 个 弱点 ， 看 起 来 好 像 需 要 花 很 多 时 间 在 配置 上 ， 其 实 大 多 数 配置 的 
默认 值 已 经 是 最 佳 配置 了 ， 所 以 最 好 不 要 改动 太 多 配置 ,甚至 可 以 忘记 
某 些 配置 的 存在 。 这 就 是 为 什么 我 们 为 本 书 创建 了 一 个 完整 的 最 小 的 
示例 配置 文件 ， 可 以 作为 自己 的 服务 器 配置 文件 的 一 个 好 的 起 点 。 有 
一 些 配置 项 是 必 选 的 ， 我 们 将 在 本 章 稍 后 解释 。 下 面 就 是 这 个 基础 配 
置 文件 : 


[mysqld] 
# GENERAL 
datadir = /var/1lib/mysql 
socket = 
/var/lib/mysql/mysql.sock 
pid_file = 
/var/lib/mysql/mysql.pid 
user = mysql 
port = 3306 
storage_engine = 
InnoDBdefault_storage_engine 
# INNODB 
innodb_buffer_pool_size = <value> 
innodb_log file_size = <value> 
innodb_file_per_table = 1 
innodb_flush_method = O_DIRECT 
# MyISAM 


key_buffer_size = <value> 


# LOGGING 
log_error = 
/var/lib/mysql/mysql-error.log 
log_slow_queries = 


/var/lib/mysql/mysql-slow. logslow_query_log 


# OTHER 

tmp_table_size = 32M 
max_heap_table_size = 32M 
query_cache_type = 0 
query_cache_size = 0 
max_connections = <value> 


thread_cache_size 一 
<value>thread_cache 
table cache size 三 


<value>table cache 


open_files_limit = 65535 
[client ] 
socket = 


/var/lib/mysql/mysql.sock 


port 3306 


和 你 见 过 的 其 他 配置 文件 包 相 比 ， 这 里 的 配置 选项 可 能 太 少 了 。 

但 实际 上 已 经 超过 了 许多 人 的 需要 。 有 一 些 其 他 类 型 的 配置 选项 可 能 

会 用 到 ， 比 如 二 进 制 日 志 ， 我 们 会 在 本 章 后 面 以 及 其 他 章节 覆盖 这 
些 内 容 。 


配置 文件 的 第 一 件 事 是 设置 数据 的 人 位置。 我们 选择 
了 Nar/lib/mysql 路 径 存 储 数 据 ， 因 为 在 许多 类 UNIX 系 统 中 这 是 最 常见 
的 位 置 。 选 择 另 外 的 位 置 也 没有 错 ， 可 以 根据 需要 决定 。 我 们 把 PID 
文件 也 放 到 相同 的 位 置 ， 但 许多 操作 系统 希望 放 在 warrun 目 录 下 ， 这 
也 可 以 。 只 需要 简单 地 为 这 些 选 项 配置 一 下 束 可 以 了 。 顺 便 说 一 下 ， 
不 要 把 Socket 文 件 和 PID 文 件 放 到 MySQL 编 译 默 认 的 位 置 ， 在 不 同 的 
MySQL 版 本 里 这 可 能 会 导致 一 些 错误 。 最 好 明确 地 设置 这 些 文 件 的 位 
置 。 (这 么 说 并 不 是 建议 选择 不 同 的 位 置 ， 只 是 建议 确保 在 my.cnf 文 
件 中 明确 指定 了 这 些 文件 的 存放 地 点 ， 这 样 升级 MySQL 版 本 时 这 些 路 
径 就 不 会 改变 。 


这 里 还 指定 了 操作 系统 必须 用 mysql! 用 户 来 运行 mysqld 进 程 。 需 要 
确保 这 个 账户 存在 ， 并 且 拥 有 操作 数据 目录 的 权限 。 端 口 设置 为 默认 
的 3306， 但 有 时 可 能 需要 修改 一 下 。 


我 们 选择 InnoDB 作 为 默认 的 存储 引擎 ， 这 个 值得 向 大 家 解释 一 
下 。InnoDB 在 大 多 数 情况 下 是 最 好 的 选择 ， 但 并 不 总 是 如 此 。 例 如 ， 
一 些 第 三 方 的 软件 ， 可 能 假设 默认 存储 引擎 是 MyI SAM， 所 以 创建 表 
时 没有 指定 存储 引擎 。 这 可 能 会 导致 软件 故障 ， 例 如 ， 这 些 应 用 可 能 
会 假定 可 以 创建 全 文 索引 9。 默认 存储 引擎 也 会 在 显 式 创建 临时 表 时 

到 ， 可 能 会 引起 服务 器 做 一 些 意料 之 外 的 工作 。 如 果 希 望 持久 化 的 
表 使 用 InnoDB， 但 所 有 临时 表 使 用 MyISAM， 那 应 该 确保 在 CREATE 
TABLE 语 句 中 明确 指定 了 存储 引擎 。 


一 般 情况 下 ， 如 果 决 定 使 用 一 个 存储 引擎 作为 默认 引擎 ， 最 好 显 
式 地 进行 配置 。 许 多 用 户 认为 只 使 用 了 某 个 特定 的 存储 引擎 ， 但 后 来 
发 现 正在 用 的 其 实 是 另 一 个 引擎 ， 就 是 因为 默认 配置 的 是 另外 一 个 引 


BE 
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接 下 来 我 们 将 前 述 InnoDB 的 基础 配置 。InnoDB 在 大 多 数 情况 下 如 


果 要 运行 得 很 好 ， 配 置 大 小 合适 的 缓冲 池 (Buffer Pool) 和 日 志文 件 
(Log File) 是 必须 的 。 默 认 值 都 太 小 了 。 其 他 所 有 的 InnoDB 设 置 都 
是 可 选 的 ， 尽 管 示例 配置 中 因为 可 管理 性 和 灵活 性 的 原因 启用 了 
innodb file per table o 设置 ImoDB 日 志文 件 的 大 小 和 
innodb_fush_method 是 本 章 后 面 要 讨论 的 主题 ， 其 中 
innodb_fush_method 是 类 UNIX 系 统 特有 的 选项 。 


有 一 个 流行 的 经 验 法 则 说 ， 应 该 把 缓冲 池 大 小 设置 为 服务 器 内 存 


的 约 759%~80%。 这 是 另 一 个 偶然 有 效 的 “比率 ”， 但 并 不 总 是 正确 的 。 


有 一 
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个 更 好 的 办 法 来 设置 缓冲 池 大 小 ， 大 致 如 下 : 


从 服务 器 内 存 总 量 开 始 。 

减 去 操作 系统 的 内 存 占用 ， 如 果 MySQL 不 是 唯一 运行 在 这 个 服务 
器 上 的 程序 ， 还 要 扣 掉 其 他 程序 可 能 占用 的 内 存 。 

减 去 一 些 MySQL 自 身 需要 的 内 存 ， 例 如 为 每 个 查询 操作 分 配 的 一 
些 缓冲 。 

减 去 足够 让 操作 系统 缓存 InnoDB 日 志文 件 的 内 存 ， 至 少 是 足够 缓 
存 最 近 经 常 访问 的 部 分 。 (此 建议 适用 于 标准 的 MySQL Percona 
Server 可 以 配置 日 志文 件 用 O_DIRECT 方 式 打开 ， 绕 过 操作 系统 缓 
存 ) ， 留 一 些 内 存 至 少 可 以 缓存 二 进 制 日 志 的 最 后 一 部 分 也 是 个 
很 好 的 选择 ， 尤 其 是 如 果 复 制 产生 了 延迟 ， 备 库 就 可 能 读 取 主 库 
上 旧 的 二 进 制 日 志文 件 ， 给 主 库 的 内 存 造成 一 些 压力 。 


. 减 去 其 他 配置 的 MySQL 缓 冲 和 缓存 需要 的 内 存 ， 例 如 MyISAM 的 


键 缓存 (Key Cache) ， 或 者 查询 缓存 (Query Cache) o 


. 除 以 105% ， 这 差不多 接近 InnoDB 管 理 缓冲 池 增 加 的 自身 管理 开 


销 。 


7. 把 结果 四 舍 五 入 ， 向 下 取 一 个 合理 的 数值 。 向 下 舍 入 不 会 太 影响 
结果 ， 但 是 如 果 分 配 太 多 可 能 器 会 是 件 很 糟糕 的 事情 。 


我 们 对 这 里 有 些 内 存 总 量 相关 的 问题 有 一 点 感到 厌倦 一 一 什么 是 
“操作 系统 的 一 个 位 (Bit) ”? 那 是 变化 的 ， 在 本 章 和 这 本 书 的 其 余音 
分 ， 我 们 将 对 此 做 一 定 深度 的 讨论 。 你 必须 了 解 你 的 系统 ， 并 且 估 算 
它 需 要 多 少 内 存 才能 良好 地 运转 。 这 是 为 什么 一 个 适合 所 有 场景 的 配 
置 文件 是 不 存在 的 。 经 验 ， 以 及 有 时 一 点 数学 知识 将 给 你 提供 指导 。 


下 面 是 一 个 例子 ， 假 设 有 一 个 192GB 内 存 的 服务 器 ， 只 运行 
MySQL 并 且 只 使 用 mnoDB ， 没 有 查询 缓存 (Query Cache) ， 也 没有 
非常 多 的 连接 连 到 服务 器 。 如 果 日 志文 件 总 大 小 是 4 GB， 可 能 会 像 这 
样 处 理 : “我 认为 所 有 内 存 的 5% 或 者 2GB ， 取 较 大 的 那个 ， 应 该 足够 
操作 系统 和 MySQL 的 其 他 内 存 需 求 ， 为 日 志文 件 减 去 4 GB， 剩 下 的 都 
给 InnoDB 用 ”。 结 果 差 不 多 是 177 GB， 但 是 配置 得 稍微 低 一 点 可 能 是 
个 好 主意 。 比 如 可 以 先 配置 缓存 池 为 168GB。 在 服务 器 实际 运行 中 若 
发 现 还 有 不 少 内 存 没 有 分 配 使 用 ， 在 出 于 某 些 目的 有 机 会 重启 时 ， 可 
以 再 适当 调 大 缓冲 池 的 大 小 。 


如 果 有 大 量 MyISAM 表 需要 缓存 它们 的 索引 ， 结 果 自 然 会 有 很 大 
不 同 。 在 windows 下 这 也 是 完全 不 同 的 ， 大 多 数 的 MySQL 版 本 在 
Windows 下 使 用 大 内 存 都 有 问题 (虽然 在 MySQL 5.5 中 有 所 改进 ) ， 
或 者 是 出 于 某 种 原因 不 使 用 O_DIRECT 也 会 有 不 同 的 结果 。 


正如 你 所 看 到 的 ， 从 一 开始 融 获 得 精确 的 设置 并 不 是 天 键 。 从 一 
个 比 默 认 值 大 一 点 但 不 是 大 得 很 离谱 的 安全 值 开 始 是 比较 好 的 ， 在 服 
务 器 运行 一 段 时 间 后 ， 可 以 看 看 服务 器 真实 情况 需要 使 用 多 少 内 存 。 
这 些 东西 是 很 难 预测 ， 因 为 MySQL 的 内 存 利用 率 并 不 总 是 可 以 预测 


的 : 它 可 能 依赖 很 多 的 因素 ， 例 如 查询 的 复杂 性 和 并 发 性 。 如 果 是 简 
单 的 工作 负载 ，MySQL 的 内 存 需 求 是 非常 小 的 一 一 大 约 256 KB 的 每 个 
连接 。 但 是 ， 使 用 临时 表 、 排 序 、 存 储 过 程 等 的 复杂 查询 ， 可 能 使 用 
更 多 的 内 存 。 


这 就 是 我 们 选择 一 个 非常 安全 的 起 点 的 原因 。 可 以 看 到 ， 即 使 是 
保守 的 InnoDB 的 缓冲 闻 设 置 ， 实 际 上 也 是 服务 器 内 存 的 87.5% 一 一 起 
过 75%， 这 就 是 为 什么 我 们 说 简单 地 按 比例 是 不 正确 的 方法 的 原因 。 


我 们 建议 ， 当 配置 内 存 缓冲 区 的 时 候 ， 宁 可 谨慎 ， 而 不 是 把 它们 
配置 得 过 大 。 如 果 把 缓冲 池 配 置 得 比 它 可 以 设 的 值 少 了 20%， 很 可 能 
只 会 对 性 能 产生 小 的 影响 ， 也 许 融 只 影响 几 个 和 百分点。 如 果 设 置 得 大 
了 209%， 则 可 能 会 造成 更 严重 的 问题 : 内存 交 换 、 磁 盘 拌 动 ， 甚 至 内 
存 耗 尽 和 硬件 死机 。 


这 份 InnoDB 配 置 的 例子 说 明了 我 们 配置 服务 器 的 首选 途径 : 了 解 
它 内 部 做 了 什么 ， 以 及 参数 之 间 如 何 相互 影响 ， 然 后 再 决定 。 


时 间 改 变 一 切 


精确 地 配置 MySQL 的 内 存 缓冲 区 随 着 时 间 的 推移 变 得 不 那么 重 
要 。 当 一 个 强大 的 服务 器 只 有 4 GB 内 存 的 时 候 ， 我 们 努力 地 平衡 其 
资源 使 它 可 以 运行 1000 个 连接 。 这 通常 需要 我 们 为 MySQL 保 留 1GB 
的 内 存 ， 这 是 服务 器 总 内 存 的 四 分 之 一 ， 而 且 会 极 大 地 影响 我 们 设 
置 缓冲 池 的 大 小 。Time Changes Everything The need to configure 
MySQL's memory buffers precisely has become less important over 


time. When a powerful server had 4 GB of memory, we worked hard to 


balance its resources so it could run a thousand connections. This 


typically required us to re- 


如 今 类 似 的 服务 器 有 144 GB 的 内 存 ， 但 是 在 大 多 数 应 用 中 我 们 
通常 看 到 的 连接 数 是 相同 的 ， 每 个 连接 的 缓冲 区 并 没有 真 的 改变 太 
多 。 因 此 ， 我 们 可 能 会 慷慨 地 为 MySQL 保 留 4GB 的 内 存 ， 这 只 是 九 
牛 一 毛 而 已 。 它 不 会 对 我 们 的 缓冲 闻 的 大 小 设置 产生 太 大 影响 。 


示例 配置 文件 中 的 其 他 一 些 设置 ， 大 多 是 不 言 目 明 的 ， 其 中 很 多 
配置 都 是 是 与 否 的 判断 。 在 本 章 的 其 余部 分 ， 我 们 将 探讨 其 中 的 几 
个 。 可 以 看 到 ， 我 们 已 经 启用 日 志 记 录 、 茶 用 了 碍 询 缓存 ， 等 等 。 在 
这 一 章 的 后 面 ， 我 们 还 将 讨论 一 些 安全 性 和 完整 性 的 设置 ， 它 可 以 使 
服务 器 更 强健 ， 并 对 防止 数据 损坏 和 其 他 问题 非常 有 帮助 。 我 们 并 没 
有 在 这 里 展示 这 些 设置。 


这 里 需要 解释 的 一 个 选项 是 open_files_limit。 在 典型 的 Linux 系 统 
上 我 们 把 它 设 置 得 尽 可 能 大 。 现 代 操 作 系统 中 打开 文件 句柄 开销 都 很 
小 。 如 果 这 个 参数 不 够 大 ， 将 会 碰 到 经 典 的 24 号 错误 , “打开 的 文件 太 


多 (too many open files) ”。 


跳 过 其 他 的 直接 看 到 末尾 ， 在 配置 文件 的 最 后 一 节 ， 是 为 了 如 
mysql 和 mysqladmin 之 类 的 客户 端 程序 做 的 设置 ， 可 以 简化 这 些 程序 连 
接 到 服务 器 的 步骤 。 应 该 为 客户 端 程序 设置 那些 匹配 服务 器 的 配置 
项 。 


8.3.1 ”检查 MySQL 服 务 器 状态 变量 


有 时 可 以 使 用 SHOW GLOBAL STATUS 的 输出 ， 作 为 配置 的 输 
入 ， 以 更 好 地 通过 工作 负载 来 自 定 义 配 置 。 为 了 达到 最 佳 效 果 ， 既 要 
看 绝对 值 ， 又 要 看 值 是 如 何 随 时 间 而 改变 的 ， 最 好 为 高 峰 和 非 高 峰 时 
间 的 值 做 几 个 快照 。 可 以 使 用 以 下 命令 每 隔 60 秒 来 查看 状态 变量 的 增 


量变 化 : 


$ mysqladmin extended-status -ri60 


在 解释 配置 设置 的 时 候 ， 我 们 经 常会 提 到 随 着 时 间 的 推移 各 种 状 
态 变量 的 变化 。 所 以 通常 可 以 预料 到 需要 分 析 如 刚才 那个 命令 的 输出 
的 情况 。 有 一 些 有 用 的 工具 ， 如 Percona Toolkit 中 的 pt-mext 或 PT-mysql- 
summary， 可 以 简洁 地 显示 状态 计数 器 的 变化 ， 不 用 直接 看 那些 
SHOW 命 令 的 输出 。 


的 东西 ， 并 将 相关 的 配置 建议 穿插 在 其 中 。 然 后 再 回头 来 看 示例 配置 
文件 ， 就 会 有 足够 的 背景 知识 来 选择 适当 的 配置 选项 的 值 了 。 


8.4 ”配置 内 存 使 用 


配置 MySQL 正 确 地 使 用 内 存量 对 高 性 能 是 至 关 重 要 的 。 肯 定 要 根 
据 需 求 来 定制 内 存 使 用 。 可 以 认为 MySQL 的 内 存 消耗 分 为 两 类 : 可 以 
控制 的 内 存 和 不 可 以 控制 的 内 存 。 无 法 控制 MySQL 服 务 器 运行 、 解 析 
查询 ， 以 及 其 内 部 管理 所 消耗 的 内 存 ， 但 是 为 特定 目的 而 使 用 多 少 内 
存 则 有 很 多 参数 可 以 控制 中 。 用 好 可 以 控制 的 内 存 并 不 难 ， 但 需要 对 
配置 的 含义 非常 清楚 。 


像 前 面 展 示 的 ， 按 下 面 的 步骤 来 配置 内 存 : 


1. 确定 可 以 使 用 的 内 存 上 限 。 

2. 确定 每 个 连接 MySQL 需 要 使 用 多 少 内 存 ， 例 如 排序 缓冲 和 临时 
表 。 

3. 人 确定 操作 系统 需要 多 少 内 存 才 够 用 。 包 括 同一 台 机 器 上 其 他 程序 
使 用 的 内 存 ， 如 定时 任务 。 

4. 把 剩 下 的 内 存 全 部 给 MySQL 的 缓存 ， 例 如 InnoDB 的 缓冲 池 ， 这 样 
做 很 有 意义 。 


我 们 将 在 后 面 的 章节 详细 说 明 这 些 步 又 ， 然 后 我 们 对 各 种 MySQL 
的 缓存 需求 做 更 细节 的 分 析 。 


8.4.1 MySQL 可 以 使 用 多 少 内 存 


在 任何 给 定 的 操作 系统 上 ，MySQL 都 有 人 允许 使 用 的 内 存 上 限 。 基 
本 出 发 点 是 机 器 上 安装 了 多 少 物理 内 存 。 如 果 服 务 器 就 没 装 这 么 多 内 
存 ，MySQL 肯 定 也 不 能 用 这 么 多 内 存 。 


还 需要 考虑 操作 系统 或 架构 的 限制 ， 如 32 位 操作 系统 对 一 个 给 定 
的 进程 可 以 处 理 多 少 内 存 是 有 限制 的 。 因 为 MySQL 是 单 进程 多 线程 的 
运行 模式 ， 它 整体 可 用 的 内 存量 也 许 会 受 操 作 系统 位 数 的 严格 限制 
一 一 例如 ，32 位 Linux 内 核 通常 限制 任意 进程 可 以 使 用 的 内 存量 在 
2.5GB~2.7GB 范 围 内 。 运 行 时 地 址 空间 溢出 是 非常 危险 的 ， 可 能 导 至 
MySQL 骨 溃 。 现 在 这 种 情况 非常 难得 一 见 ， 但 以 前 这 种 情况 很 常见 。 


有 许多 其 他 的 操作 系统 特殊 的 参数 和 古怪 的 事情 必须 考虑 
到 ， 例 如 不 只 是 每 个 进程 有 限制 ， 而 且 堆 栈 大 小 和 其 他 设置 也 有 限 
制 。 系 统 的 glibc 库 也 可 能 限制 每 次 分 配 的 内 存 大 小 。 例 如 ， 若 glibc 库 
支持 单 次 分 配 的 最 大 大 小 是 2GB， 那么 可 能 就 无 法 设置 
innodb_buffer_pool 的 值 大 于 2 GBo 


即使 在 64 位 服务 器 上 ， 依 然 有 一 些 限制 。 例 如 ， 许 多 我 们 讨论 的 
缓冲 区 ， 如 键 缓存 (Key Buffer) ， 在 5.0 以 及 更 早 的 MySQL 版 本 上 ， 
有 4GB 的 限制 ， 即 使 在 64 位 服务 器 上 也 是 如 此 。 在 MySQL 5.1 中 ， 部 
分 限制 被 取消 了 ， 在 MySQL 手 册 中 记载 了 每 个 变量 的 最 大 值 ， 有 需要 
可 以 查阅 。 


8.4.2 ”每 个 连接 需要 的 内 存 


MySQL 保 持 一 个 连接 (线程 》 只 需要 少量 的 内 存 。 它 还 要 求 一 个 
基本 量 的 内 存 来 执行 任何 给 定 查 询 。 你 需要 为 高 峰 时 期 执行 的 大 量 查 
询 预 留 好 足够 的 内 存 。 否 则 ， 碍 询 执行 可 能 因为 缺 之 内 人 存 而 导致 执行 
效率 不 佳 或 执行 失败 。 


知道 在 高 峰 时 期 MySQL 将 消耗 多 少 内 存 是 非常 有 用 的 ， 但 一 些 
惯性 用 法 可 能 意外 地 消耗 大 量 内 存 ， 这 使 得 对 内 存 使 用 量 的 预测 变 
比较 困难 。 绑 定 变 量 就 是 一 个 例子 ， 因 为 可 以 一 次 打开 很 多 绑 定 变量 
语句 。 另 一 个 例子 是 mnoDB 数 据 字 典 (关于 这 个 后 面 我 们 再 细 说 ) 。 
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当 预 测 内 存 峰 值 消耗 时 ， 没 必要 假设 一 个 最 坏 情况 。 例 如 ， 配 置 
MySQL 人 允许 最 多 100 个 连接 ， 在 理论 上 可 能 出 现 100 个 连接 同时 在 运行 
很 大 的 查询 ， 但 在 现实 情况 中 ， 这 可 能 不 会 发 生 。 人 例如， 设置 


myisam_sort_buffer_size 为 256MB， 最 差 情况 下 至 少 需 要 使 用 25 GBA 
存 ， 但 这 种 最 差 情 况 在 实际 中 几乎 是 不 可 能 发 生 的 。 使 用 了 许多 大 的 
临时 表 或 复杂 人 存储 过 程 的 查询 ， 通 单 是 导致 高 内 存 消耗 最 可 能 的 原 
Al. 


相对 于 计算 最 坏 情况 下 的 开销 ， 更 好 的 办 法 是 观察 服务 器 在 真实 
的 工作 压力 下 使 用 了 多 少 内 存 ， 可 以 在 进程 的 虚拟 内 存 大 小 那里 看 
到 。 在 许多 类 UNIX 系 统 里 ， 可 以 观察 top 命 令 中 的 VIRT 列 ， 或 者 ps 命 
令 中 的 VSZ 列 的 值 。 下 一 章 有 更 多 关于 如 何 监视 内 存 使 用 情况 的 信 
息 。 


8.4.3 ”为 操作 系统 保留 内 存 


跟 查 询 一 样 ， 操 作 系统 也 需要 保留 足够 的 内 存 给 它 工 作 。 如 果 没 
有 虚拟 内 存 正在 交换 (Paging) 到 磁盘 ， 就 是 表明 操作 系统 内 存 足 够 
的 最 佳 迹象 。 (关于 这 个 话题 ， 请 参阅 下 一 章 。) 


至 少 应 该 为 操作 系统 保留 1GB~2GB 的 内 存 一 一 如 果 机 器 内 存 更 
多 就 再 多 预 留 一 些 。 我 们 建议 2 GB 或 总 内 存 的 5% 作 为 基准 ， 以 较 大 者 
为 准 。 为 了 安全 再 额外 增加 一 些 预 留 ， 并 且 如 果 机 器 上 还 在 运行 内 存 
密集 型 任务 (如 备份 ) ， 则 可 以 再 多 增加 一 些 预 留 。 不 要 为 操作 系统 
的 缓存 增加 任何 内 存 ， 因 为 它们 可 能 会 变 得 非常 大 。 操 作 系统 通常 会 
利用 所 有 剩 下 的 内 存 来 做 文件 系统 缓存 ， 我 们 认为 ， 这 应 该 从 操作 系 
统 自 身 的 需求 里 分 离 出 来 。 


844 ”为 缓存 分 配 内 存 


如 果 服 务 器 只 运行 MySQL ， 所 有 不 需要 为 操作 系统 以 及 查询 处 理 
保留 的 内 存 都 可 以 用 作 MySQL 缓 存 。 


相 比 其 他 ，MySQL 需 要 为 缓存 分 配 更 多 的 内 存 。 它 使 用 缓存 来 避 
免 磁盘 访问 ， 磁 盘 访 问 比 内 存 访 问 数据 要 慢 得 多 。 操 作 系统 可 能 会 缓 
存 一 些 数据 ， 这 对 MySQL 有 些 好 处 (尤其 是 对 MyISAM) ， 但 是 
MySQL 自 身 也 需要 大 量 内 存 。 


下 面 是 我 们 认为 对 大 部 分 情况 来 说 最 重要 的 缓存 : 


InnoDB 缓 冲 池 
InnoDB 日 志文 件 和 MyISAM 数 据 的 操作 系统 缓存 
MyISAM 键 缓存 
查询 缓存 

无 法 手工 配置 的 缓存 ， 例 如 二 进 制 日 志和 表 定 义 文件 的 操作 系统 
缓存 


还 有 些 其 他 缓存 ， 但 是 它们 通常 不 会 使 用 太 多 内 存 。 我 们 在 前 面 
的 章节 中 讨论 了 查询 缓存 (Query Cache) 的 细节 ， 所 以 接 下 来 的 部 分 
我 们 专注 于 InnoDB 和 MyISAM 良 好 工作 需要 的 缓存 。 


如 果 只 使 用 单一 存储 引擎 ， 配 置 服务 器 就 简单 多 了 。 如 果 只 使 用 
MyISAM 表 ， 就 可 以 完全 关闭 InnoDB， 而 如 果 只 使 用 InnoDB， 就 只 需 
要 分 配 最 少 的 资源 给 MyISAM (MySQL 内 部 系统 表 采 用 MyISAM) o 
但 是 如 果 正 混合 使 用 各 种 存储 引擎 ， 就 很 难 在 它们 之 间 找 到 恰当 的 平 
衡 。 我 们 发 现 最 好 的 办 法 是 先 做 一 个 有 根据 的 猜测 ， 然 后 在 运行 中 观 
察 服务 器 《再 进行 调整 ) 。 


8.4.5 ”InnoDB 缓 冲 池 (Buffer Pool) 


如 果 大 部 分 都 是 InnoDB 表 ，InnoDB 缓 冲 池 或 许 比 其 他 任何 东西 更 
需要 内 存 。InnoDB 缓 冲 池 并 不 仅仅 缓存 索引 : 它 还 会 缓存 行 的 数据 、 
自 适 应 哈 希 索引 、 插 入 缓冲 (Insert Buffer) 、 锁 ， 以 及 其 他 内 部 数据 
结构 。InnoDB 还 使 用 缓冲 池 来 帮助 延迟 写 入 ， 这 样 就 能 合并 多 个 写 入 
操作 ， 然 后 一 起 顺序 地 写 回 。 总 之 ，InnoDB 严 重 依赖 缓冲 地 ， 你 必须 
确认 为 它 分 配 了 足够 的 内 存 ， 通 常 就 像 这 一 章 前 面 展 示 的 那样 处 理 。 
可 以 使 用 通过 SHOW 命令 得 到 的 变量 或 者 例如 ipnnotop 这 样 的 工具 监控 
InnoDB 缓 冲 池 的 内 存 利 用 情况 。 


如 果 数 据 量 不 大 ， 并 且 不 会 快速 增长 ， 融 没 必要 为 缓冲 池 分 配 过 
多 的 内 存 。 把 缓冲 池 配 置 得 比 需要 缓存 的 表 和 索引 还 要 大 很 多 实际 上 
没有 什么 意义 。 当 然 ， 对 一 个 迅速 增长 的 数据 库 做 超前 的 规划 没有 


铅 ， 但 有 时 我 们 也 会 看 到 一 个 巨大 的 缓冲 地 只 缓存 一 点 氮 数据 ， 这 融 
没有 必要 了 。 
很 大 的 缓冲 池 也 会 市 来 一 些 挑 成 ， 例 如 ， 预 热 和 天 闭 都 会 化 费 很 


长 的 时 间 。 如 果 有 很 多 脏 页 在 缓冲 池 里 ，InnoDB 关 闭 时 可 能 会 花费 较 
长 的 时 间 ， 因 为 在 关闭 之 前 需要 把 脏 页 写 回 数据 文件 。 也 可 以 强制 快 
速 关 闭 ， 但 是 重启 时 就 必须 多 做 更 多 的 恢复 工作 ， 也 就 是 说 无 法 同时 
加 速 关 闭 和 重启 两 个 动作 。 如 果 事先 知道 什么 时 候 需 要 关闭 InnoDB， 
可 以 在 运行 时 修改 innodb_max_dirty_pages_pct 变 量 ， 将 值 改 小 ， 等 待 
刷新 线程 清理 缓冲 池 ， 然 后 在 脏 页 数量 较 少 时 关闭 。 可 以 监控 the 
Innodb_buffer_ pool _pages_dirty 状 态 变量 或 者 使 用 innotop 来 监控 SHOW 
INNODB STATUS 来 观察 脏 页 的 刷新 量 。 


更 小 的 innodb_max _dirty_pages_pct 变 量 值 并 不 保证 InnoDB 将 在 缓 
冲 池 中 保持 更 少 的 脏 页 。 它 只 是 控制 InnoDB 是 否 可 以 “偷懒 (Lazy) ” 
的 阅 值 。InnoDB 默 认 通 过 一 个 后 台 线 程 来 刷新 脏 页 ， 并 且 会 合并 写 
入 ， 更 高 效 地 顺序 写 出 到 磁盘 。 这 个 行为 之 所 以 被 称 为 “偷懒 
(Lazy) ”， 是 因为 它 使 得 InnoDB 延 迟 了 缓冲 池 中 刷 写 脏 页 的 操作 ， 
直到 一 些 其 他 数据 必须 使 用 空间 时 才 刷 写 。 当 脏 页 的 百分比 超过 了 这 
个 阅 值 ，InnoDB 将 快速 地 刷 写 脏 页 ， 尝 试 让 脏 页 的 数量 更 低 。 当 事务 
日 志 没 有 足够 的 空间 剩余 时 ，InnoDB 也 将 进入 “激烈 刷 写 (Furious 
Flushing) ”模式 ， 这 就 是 大 日 志 可 以 提升 性 能 的 一 个 原因 。 


当 有 一 个 很 大 的 缓冲 池 ， 重 启 后 服务 器 也 许 需要 花 很 长 的 时 间 
( 几 个 小 时 甚至 几 天 ) 来 预 热 缓冲 池 ， 尤 其 是 磁盘 很 慢 的 时 候 。 在 这 
种 情况 下 ， 可 以 利用 Percona Server 的 功能 来 重新 载 入 缓冲 池 的 页 (9)， 
从 而 节省 时 间 。 这 可 以 让 预 热 时 间 减 少 到 几 分 钟 。MySQL 5.6 也 提供 
了 一 个 类 似 的 功能 。 这 个 功能 对 复制 尤其 有 好 处 ， 因 为 单线 程 复 制导 


刻 进 行 全 表 扫 描 或 者 索引 扫描 ， 把 索引 载 入 缓冲 地 。 这 是 比较 粗暴 的 
方式 ， 但 是 有 时 候 比 什么 都 不 做 还 是 要 好 。 可 以 使 用 init_file 设 置 来 实 
现 这 个 功能 。 把 SQL 放 到 一 个 文件 里 ， 然 后 当 MySQL 启 动 的 时 候 来 执 
行 。 文 件 名 必须 在 init_file 选 项 中 指定 ， 文 件 中 可 以 包含 多 条 SQL 命 
令 ， 每 一 条 单独 一 行 〈 不 允许 使 用 注释 ) 。 


8.4.6 MYISAM 键 缓存 (Key 
Caches) 


MyISAM 的 键 缓存 也 被 称 为 键 缓 冲 ， 默 认 只 有 一 个 键 缓存 ， 但 也 
可 以 创建 多 个 。 不 像 mnoDB 和 其 他 一 些 存储 引擎 ，MyISAM 自 身 只 缓 
FAS, FAERIE (依赖 操作 系统 缓存 数据 ) 。 如 果 大 部 分 是 
MyISAM 表 ， 就 应 该 为 键 缓存 分 配 比较 多 的 内 存 。 


最 重要 的 配置 项 是 key_buffer_size。 任 何 没有 分 配给 它 的 内 存 避 0) 
都 可 以 被 操作 系统 缓存 利用 。MySQL 5.0 有 一 个 规定 的 有 效 上 限 是 
4GB， 不 管 系统 是 什么 架构 。MySQL 5.1 允 许 更 大 的 值 。 可 以 查看 正 
在 使 用 的 MySQL 版 本 的 官方 手册 来 了 解 这 个 限制 |。 


在 决定 键 缓存 需要 分 配 多 少 内 存 之 前 ， 先 去 了 解 MyISAM 索 引 实 
际 上 占用 多 少 磁盘 空间 是 很 有 帮助 的 。 肯 定 不 需要 把 键 缓冲 设置 得 比 
需要 缓存 的 索引 数据 还 大 。 查 询 INFORMATION_SCHEMA 表 的 
INDEX_LENGTH 字 段 ， 把 它们 的 值 相 加 ， 就 可 以 得 到 索引 存储 占用 
的 空间 : 


SELECT SUM(INDEX_LENGTH) FROM INFORMATION_SCHEMA. TABLES 
WHERE ENGINE='MYISAM' ; 


如 果 是 类 UNIX 系 统 ， 也 可 以 使 用 下 面 的 命令 : 


$ du -sch ‘find /path/to/mysql/data/directory/ 


name" * .MYI"` 


应 该 把 键 缓存 设置 得 多 大 ? 不 要 超过 索引 的 总 大 小 ， 或 者 不 超过 
为 操作 系统 缓存 保留 总 内 存 的 25% 居 50%， 以 更 小 的 为 准 。 


默认 情况 下 ，MYyISAM 将 所 有 索引 都 缓存 在 默认 键 缓存 中 ， 但 也 
可 以 创建 多 个 命名 的 键 缓冲 。 这 样 就 可 以 同时 缓存 超过 4GB 的 内 存 。 
如 果 要 创建 名 为 key_buffer 1 和 key_buffer 2 的 键 缓冲 ， 每 个 大 小 为 
1GB， 则 可 以 在 配置 文件 中 添加 如 下 配置 项 : 


key_buffer_1.key_buffer_size = 1G 
key_buffer_2.key_buffer_size = 1G 


现在 有 了 三 个 键 缓冲 : 两 个 由 这 两 行 配置 明确 定义 ， 还 有 一 
默认 键 缓 冲 。 可 以 使 用 CACHE INDEX 命 令 来 将 表 映 射 到 对 应 hae 
区 。 使 用 下 面 的 语句 ， 让 MySQL 使 用 key_buffer_ 1 缓冲 区 来 缓存 t1 和 t2 
表 的 索引 : 


现在 当 MySQL 从 这 些 表 的 索引 读 取 块 时 ， 将 会 在 指定 的 缓冲 区 内 
缓存 这 些 块 。 也 可 以 把 表 的 索引 预 载 入 到 缓存 中 ， 通 过 init_file 设 置 或 
者 LOAD INDEX 命 令 : 


任何 没 明 确 指 定 映 射 到 哪个 键 缓冲 区 的 索引 ， 在 MySQL 第 一 次 需 
要 访问 .MYI 文 件 的 时 候 ， 都 会 被 分 配 到 默认 缓冲 区 。 


可 以 通过 SHOW STATUS 和 SHOW VARIABLES 命 令 的 信息 来 监控 
键 缓冲 的 使 用 情况 。 下 面 的 公式 可 以 计算 缓冲 区 的 使 用 率 : 


100 - ( (Key_blocks_unused * key_cache_block_size) * 100 / 


key_buffer_size ) 


如 果 服 务 器 运行 了 很 长 一 段 时 间 后 ， 还 是 没有 使 用 完 所 有 的 键 缓 
冲 ) 就 可 以 把 缓冲 区 调 /| \ 一 点 。 


键 缓冲 命中 率 有 什么 意义 ? 正如 我 们 之 前 解释 的 那样 ， 这 个 数字 
没什么 用 。 例 如 ，99% 和 99.9% 之 间 看 起 来 差别 很 小 ， 但 实际 上 代表 了 
10 倍 的 差距 。 缓 存 命 中 率 也 是 和 应 用 相关 的 : 有 些 应 用 可 以 在 95% 的 
命中 率 下 工作 良好 ， 但 是 也 有 些 应 用 可 能 是 VO 密集 型 的 ， 必 须 在 
99.9% 的 命中 率 下 工作 。 甚 至 有 可 能 在 恰当 大 小 的 缓存 设置 下 获得 
99.99% 的 命中 率 。 


从 经 验 上 来 说 ， 每 秒 缓存 未 命中 的 次 数 要 更 有 用 。 假 定 有 一 个 独 
立 的 磁盘 ， 每 秒 可 以 做 100 个 随机 读 。 每 秒 5 次 缓存 未 命中 可 能 不 会 导 
致 JO 繁 忙 ， 但 是 每 秒 80 次 缓存 未 命中 则 可 能 出 现 问题 。 可 以 使 用 下 面 
的 公式 来 计算 这 个 值 : 


Key_reads / Uptime 


通过 间隔 10 人 100 秒 来 计算 这 段 时 间 内 缓存 未 命中 次 数 的 增 量 值 ， 
可 以 获得 当前 性 能 的 情况 。 下 面 的 命令 可 以 每 10 秒 钟 获取 一 次 状态 值 
的 变化 量 : 


$ mysqladmin extended-status -r -i 10 | grey Key_reads 


记 住 ，MyISAM 使 用 操作 系统 缓存 来 缓存 数据 文件 ， 通 单 效 据 文 
件 比率 引 要 大 。 因 此 ， 把 更 多 的 内 存 保留 给 操作 系统 缓存 而 不 是 惫 绥 
存 是 有 意义 的 。 即 使 你 有 足够 的 内 存 来 缓存 所 有 索引 ， 并 且 键 缓存 命 
中 率 很 低 ， 当 MySQL 尝 试 读 取 数据 文件 时 〈 不 是 索引 文件 ) ， 在 操作 


系统 层 还 是 可 能 发 生 缓存 未 命中 ， 这 对 MySQL 完 全 透明 ，MySQL 并 
不 能 感知 到 。 因 此 ， 这 种 情况 下 可 能 会 有 大 量 数据 文件 缓存 未 命中 ， 
这 和 索引 的 键 缓存 未 命中 率 是 完全 不 相关 的 。 


最 后 ， 即 使 没有 任何 MyISAM 表 ， 依 然 需 要 将 key_buffer_size 设 置 
为 较 小 的 值 ， 例 如 32M。MySQL 服 务 器 有 时 会 在 内 部 使 用 MyISAM 
表 ， 例 如 GROUP BY 语句 可 能 会 使 用 MyISAM 做 临时 表 。 


MySQL 键 缓存 块 大 小 (Key Block Size) 


块 大 小 也 是 很 重要 的 (尤其 是 写 密集 型 负载 ，， 因 为 它 影 响 了 
MyISAM, 操作 系统 缓存 ， 以 及 文件 系统 之 间 的 交互 。 如 果 缓 存 块 太 
小 了 ， 可 能 会 磁 到 写 时 读 取 (read-around write) ， 就 是 操作 系统 在 执 
行 写 操作 之 前 必须 先 从 磁盘 上 读 取 一 些 数据 。 下 面 说 明 一 下 这 种 情况 
是 怎么 发 生 的 ， 假 设 操作 系统 的 页 大 小 是 4KB (在 x86 架 构 上 通常 都 是 
这 样 ) ， 并 且 索 引 块 大 小 是 1KB: 


1. MyISAM 请 求 从 磁盘 上 读 取 1KB 的 块 。 

2. 操作 系统 从 磁盘 上 读 取 4KB 的 数据 并 缓存 ， 然 后 发 送 需 要 的 1KB 
数据 给 MyISAM。 

3. 操作 系统 丢弃 缓存 数据 以 给 其 他 数据 腾 出 缓存 。 

4. MyISAM 修 改 1KB 的 索引 块 ， 然 后 请 求 操作 系统 把 它 写 回 磁盘 。 

5. 操作 系统 从 磁盘 读 取 同 一 个 4KB 的 数据 ， 写 入 操作 系统 缓存 ， 修 
改 MyISAM 改 动 的 这 1KB 数 据 ， 然 后 把 整个 4KB 的 块 写 回 磁盘 。 


在 第 5 步 中 ， 当 MyISAM 请 求 操 作 系统 去 写 4KB 页 的 部 分 内 容 时 ， 
就 发 生 了 与 时 读 取 (read-around write) 。 如 果 MyISAM 的 块 大 小 跟 操 


作 系统 的 相 匹配 ， 在 第 5 步 的 磁盘 读 就 可 以 避免 册 )。 


IRER, MySQL 5.0 以 及 更 早 的 版 本 没有 办 法 配置 索引 块 大 小 。 
但 是 ， 在 MySQL 5.1 以 及 更 新 版 本 中 ， 可 以 设置 MyISAM 的 索引 块 大 
小 跟 操作 系统 一 样 ， 以 避免 写 时 读 取 。myisam_block size 变量 控 制 着 
索引 块 大 小 。 也 可 以 指定 每 个 索引 的 块 大 小 ， 在 CREATE TABLE 或 者 
CREATE INDEX 语 句 中 使 用 KEY_BLOCK_SIZE 选 项 即 可 ， 但 是 因为 
同一 个 表 的 所 有 索引 都 保存 在 同一 个 文件 中 ， 因 此 该 表 所 有 索引 的 块 
大 小 都 需要 大 于 或 者 等 于 操作 系统 的 块 大 小 ， 才 能 避免 由 于 边界 对 齐 
导致 的 写 时 读 取 。 (例如 ， 若 同一 个 表 的 两 个 索引 ， 一 个 块 大 小 是 
1KB， 另 一 个 是 4KB。 那 么 4KB 的 索引 块 边界 很 可 能 和 操作 系统 的 页 
边界 是 不 对 齐 的， 这 样 还 是 会 发 生 写 时 读 取 。) 


8.4.7 ”线程 缓存 


线程 缓存 保存 那些 当前 没有 与 连接 关联 但 是 准备 为 后 面 新 的 连接 
服务 的 线程 。 当 一 个 新 的 连接 创建 时 ， 如 果 缓 存 中 有 线程 存在 ， 
MySQL 从 缓存 中 删除 一 个 线程 ， 并 且 把 它 分 配给 这 个 新 的 连接 。 当 连 
接 天 闭 时 ， 如 果 线 程 缓存 还 有 空间 的 话 ，MySQL 又 会 把 线程 放 回 缓 
存 。 如 果 没 有 空间 的 话 ，MySQL 会 销毁 这 个 线程 。 只 要 MySQL 在 缓 
存 里 还 有 空 闪 的 线程 ， 它 就 可 以 迅速 地 响应 连接 请 求 ， 因 为 这 样 就 不 
用 为 每 个 连接 创建 新 的 线程 。 


thread_cache_size 变量 指定 了 MySQL 可 以 保持 在 缓存 中 的 线程 
数 。 一 般 不 需要 配置 这 个 值 ， 除 非 服务 器 会 有 很 多 连接 请 求 。 要 检查 
线程 缓存 是 否 足够 大 ， 可 以 查看 Threads_created 状 态 变量 。 如 果 我 们 
观察 到 很 少 有 每 秒 创建 的 新 线程 数 少 于 10 个 的 时 候 ， 通 常 应 该 尝试 保 


持 线程 缓存 足够 大 ， 但 是 实际 上 经 常 也 可 能 看 到 每 秒 少 于 1 个 新 线程 的 


情况 。 


一 个 好 的 办 法 是 观察 Threads_connected 变量 并 且 尝 试 设置 
thread_cache_size 足 够 大 以 便 能 处 理 业 务 压 力 正常 的 波动 。 例 如 ， 若 
Threads_connected 通 单 保持 在 100 信 120， 则 可 以 设置 缓存 大 小 为 20。 
如 果 它 保持 在 500 盆 700，200 的 线程 缓存 应 该 足够 大 了 。 可 以 这 样 认 
为 : 在 700 个 连接 的 时 候 ， 可 能 没有 绪 程 在 缓存 中 ; 在 500 个 连接 的 时 
候 ， 有 200 个 缓存 的 线程 准备 为 负载 再 次 增加 到 700 个 连接 时 使 用 。 


把 线程 缓存 设置 得 非常 大 在 大 部 分 时 候 是 没有 必要 的 ， 但 是 设置 
得 很 小 也 不 能 节省 太 多 内 存 ， 所 以 也 没什么 好 处 。 每 个 在 线程 缓存 中 
的 线程 或 者 休眠 状态 的 线程 ， 通 常 使 用 256KB 左 右 的 内 存 。 相 对 于 正 
在 处 理 查 询 的 线程 来 说 ， 这 个 内 存 不 算 很 大 。 通 常 应 该 保证 线程 缓存 
足够 大 ， 以 避免 Threads_created 频 繁 增长 。 如 果 这 个 数字 很 大 (Hl 
W, ULFAT) ， 可 能 需要 把 thread_cache_size 设 置 得 稍微 小 一 些 ， 
因为 一 些 操作 系统 不 能 很 好 地 处 理 庞 大 的 线程 数 ， 即 使 其 中 大 部 分 是 
休眠 的 。 


8.4.8 RÆ (Table Cache) 


表 缓 存 和 线程 缓存 的 概念 是 相似 的 ， 但 存储 的 对 象 代表 的 是 表 。 
每 个 在 缓存 中 的 对 象 包含 相关 表 .frm 文 件 的 解析 结果 ， 加 上 一 些 其 他 
数据 。 准 确 地 说 ， 在 对 象 里 的 其 他 数据 的 内 容 依 赖 于 表 的 存储 引擎 。 
例如 ， 对 MyISAM， 是 表 的 数据 和 索引 的 文件 描述 符 。 对 于 Merge 表 则 
可 能 是 多 个 文件 描述 符 ， 因 为 Merge 表 可 以 有 很 多 的 底层 表 。 


表 缓 存 可 以 重用 资源 。 举 个 实际 的 例子 ， 当 一 个 查询 请 求 访 问 一 
张 MyISAM 表 ， MySQL 也 许可 以 从 缓存 的 对 象 中 获取 到 文件 描述 符 。 
尽管 这 样 做 可 以 避免 打开 一 个 文件 描述 符 的 开销 ， 但 这 个 开销 其 实 并 
不 大 。 打 开 和 关闭 文件 描述 符 在 本 地 存储 是 很 快 的 ， 服 务 器 可 以 轻松 
地 完成 每 秒 100 万 次 的 操作 (尽管 这 跟 网 络 存储 不 同 ) 。 对 MyISAM 表 
来 说 ， 表 缓存 的 真正 好 处 是 ， 可 以 让 服务 器 避免 修改 MyISAM 文 件 头 
来 标记 表 “ 正 在 使 用 中 ”2)。 


表 缓 存 的 设计 是 服务 器 和 存储 引擎 之 间 分 离 不 彻底 的 产物 ， 属 于 
历史 问题 。 表 缓存 对 InnoDB 重 要 性 就 小 多 了 ， 因 为 InnoDB 不 依赖 它 来 
做 那么 多 的 事 (例如 持 有 文件 描述 符 ，InnoDB 有 自己 的 表 组 存 版 
Æ) 。 尽 管 如 此 ，InnoDB 也 能 从 缓存 解析 的 .frm 文 件 中 获 益 。 


在 MySQL 5.1 版 本 中 ， 表 缓存 分 离 成 两 部 分 : 一 个 是 打开 表 的 缓 
存 ， 一 个 是 表 定 义 缓存 (通过 table_open_cache 和 table_defnition_cache 
变量 来 配置 ) 。 其 结果 是 ， 表 定义 (解析 .frm 文 件 的 结果 ) 从 其 他 资 
源 中 分 离 出 来 了 ， 例 如 表 描 述 符 。 打 开 的 表 依然 是 每 个 线程 、 每 个 表 
用 的 ， 但 是 表 定 义 是 全 局 的 ， 可 以 被 所 有 连接 有 效 地 共享 。 通 常 可 以 
把 table_definition_cache 设 置 得 足够 高 ， 以 缓存 所 有 的 表 定 义 。 除 非 有 
上 万 张 表 ， 否 则 这 可 能 是 最 简单 的 方法 。 


如 果 Opened_tables 状 态 变量 很 大 或 者 在 增长 ， 可 能 是 因为 表 缓 存 
不 够 大 ， 那 么 可 以 人 为 增加 table_cache 系 统 变量 (或 者 是 MySQL 5.1 中 
的 table_open_cache) 。 然 而 ， 当 创建 和 删除 临时 表 时 ， 要 注意 这 个 计 
数 器 的 增长 ， 如 果 经 常 需要 创建 和 删除 临时 表 ， 那 么 该 计数 器 就 会 不 
停 地 增长 。 


把 表 缓 存 设置 得 非常 大 的 缺点 是 ， 当 服务 器 有 很 多 MyISAM 表 
时 ， 可 能 会 导致 关机 时 间 较 长 ， 因 为 关机 前 索引 块 必 须 完成 刷新 ， 表 
都 必须 标记 为 不 再 打开 。 同 样 的 原因 ， 也 可 能 使 FLUSH TABLES 
WITH READ LOCK 操 作 人 花费 很 长 一 段 时 间 。 更 为 严重 的 是 ， 检 查 表 
缓存 算法 不 是 很 有 效 ， 稍 后 会 更 详细 地 说 明 。 


如 果 遇 到 MySQL 无 法 打开 更 多 文件 的 错误 (可 以 使 用 perror 工 具 
来 检查 错误 号 代表 的 含义 ) ， 那 么 可 能 需要 增加 MySQL 人 允许 打开 文件 
的 数量 。 这 可 以 通过 在 my.cnf 文 件 中 设置 open_files_limit 服 务 器 变量 来 
实现 。 


线程 和 表 缓 存 实际 上 用 的 内 存 并 不 多 ， 相 有 反 却 可 以 有 效 节 约 资 
源 。 虽 然 创建 一 个 新 线程 或 者 打开 一 个 新 的 表 ， 相 对 于 其 他 MySQL 操 
作 来 说 代价 并 不 算 高 ， 但 它们 的 开销 是 会 累加 的 。 所 以 缓存 线程 和 表 
有 时 可 以 提升 效率 。 


8.4.9 InnoDB 数 据 字 典 (Data 
Dictionary) 


InnoDB 有 自己 的 表 缓存 ， 可 以 称 为 表 定 义 缓存 或 者 数据 字典 ， 在 
目前 的 MySQL 版 本 中 还 不 能 对 它 进行 配置 。 当 InnoDB 打 开 一 张 表 ， 就 
增加 了 一 个 对 应 的 对 象 到 数据 字典 。 每 张 表 可 能 占用 4KB 或 者 更 多 的 
AF (尽管 在 MySQL 5.1 中 对 空间 的 需求 小 了 很 多 ) 。 当 表 关 闭 的 时 
候 也 不 会 从 数据 字典 中 移 除 它们 。 


因此 ， 随 着 时 间 的 推移 ， 服 务 器 可 能 出 现 内 存 泄露 ， 导 致 数据 字 
典 中 的 元 素 不 断 地 增长 。 但 这 不 是 真 的 内 存 泄露 ， 只 是 没有 对 数据 字 


典 实 现任 何 一 种 缓存 过 期 策略 。 通 常 只 有 当 有 很 多 (AFRA) 张 
大 表 时 才 是 个 问题 。 如 果 这 个 问题 有 影响 ， 可 以 使 用 Percona Server， 
有 一 个 选项 可 以 控制 数据 字典 的 大 小 ， 它 会 从 数据 字典 中 移 除 没 有 使 
用 的 表 。MySQL 5.6 尚 未 发 布 的 版 本 中 也 有 个 类 似 的 功能 。 


另 一 个 性 能 问题 是 第 一 次 打开 表 时 会 计算 统计 信息 ， 这 需要 很 多 
1/O 操 作 ， 所 以 代价 很 高 。 相 比 MyISAM，InnoDB 没 有 将 统计 信息 持久 
化 ， 而 是 在 每 次 打开 表 时 重新 计算 ， 在 打开 之 后 ， 每 隔 一 段 过 期 时 间 
或 者 遇 到 触发 事件 (改变 表 的 内 容 或 者 查询 
INFORMATION_SCHEMA 表 ， 等 等 ) ， 也 会 重新 计算 统计 信息 。 如 
果 有 很 多 表 ， 服 务 器 可 能 会 花费 数 个 小 时 来 启动 并 完全 预 热 ， 在 这 个 
时 候 服 务 器 可 能 花费 更 多 的 时 间 在 等 待 WO 操 作 ， 而 不 是 做 其 他 事 。 可 
以 在 Percona Server (在 MySQL 5.6 中 也 可 以 ， 但 是 叫做 
innodb_analyze_is_persistent) 中 打开 innodb_use_sys_stats_table 选 项 来 
持久 化 存储 统计 信息 到 磁盘 ， 以 解决 这 个 问题 。 


即使 在 启动 之 后 ，InnoDB 统 计 操 作 还 可 能 对 服务 器 和 一 些 特 定 的 
查询 产生 冲击 。 可 以 关闭 innodb_stats_on_metadata 选 项 来 避免 耗 时 的 
表 统 计 信 息 刷 新 。 当 例如 IDE 这 样 的 工具 执行 
INFORMATION_SCHEMA 表 的 碍 询 时 ， 天 闭 这 个 选项 后 的 表现 是 很 
不 一 样 的 (当然 是 快 了 不 少 ) o 


如 果 设 置 了 InnoDB 的 innodb_file_per_table 选 项 (后面 会 描述 ) ， 
InnoDB 任 意 时 刻 可 以 保持 打开 .ibd 文 件 的 数量 也 是 有 其 限制 的 。 这 由 
InnoDB 存储 引擎 负责 ， 而 不 是 MySQL 服务 器 管理 ， 并 且 由 
innodb_open_files 来 控制 。InnoDB 打 开 文 件 和 MyISAM 的 方式 不 一 
样 ，MyISAM 用 表 缓 存 来 持 有 打开 表 的 文件 描述 符 ， 而 InnoDB 在 打开 
表 和 打开 文件 之 间 没 有 直接 的 关系 。InnoDB 为 每 个 .ibd 文 件 使 用 单 


个 、 全 局 的 文件 描述 符 。 如 果 可 以 ， 最 好 把 innodb_open_files 的 值 设置 
得 足够 大 以 使 服务 器 可 以 保持 所 有 的 .ibd 文 件 同时 打开 。 


8.5 ”配置 MySQL 的 1/O 行 为 


有 一 些 配 置 项 影响 着 MySQL 怎样 同步 数据 到 磁盘 以 及 如 何 做 恢复 
操作 。 这 些 操作 对 性 能 的 影响 非常 大 ， 因 为 都 涉及 到 昂贵 的 W/O 操作 。 
它们 也 表现 了 性 能 和 数据 安全 之 间 的 权衡 。 通 常 ， 保 证 数据 立刻 并 且 
一 致 地 写 到 磁盘 是 很 昂贵 的 。 如 果 能 够 冒 一 点 磁盘 写 可 能 没有 真正 持 
久 化 到 磁盘 的 风险 ， 就 可 以 增加 并 发 性 和 减少 WO 等 待 ， 但 是 必须 决定 
可 以 容忍 多 大 的 风险 。 


8.5.1 InnoDB W/O 配置 


InnoDB 不 仅 允 许 控制 怎么 恢复 ， 还 允许 控制 怎么 打开 和 刷新 数据 
(文件 ) ， 这 会 对 恢复 和 整体 性 能 产生 巨大 的 影响 。 尽 管 可 以 影响 它 
的 行为 ，InnoDB 的 恢复 流程 实际 上 是 自动 的 ， 并 上 且 经 常 在 InnoDB 启 动 
时 运行 。 撒 开 恢 复 并 假设 ImnoDB 没 有 骨 溃 或 者 出 错 ， InnoDB 依 然 有 
很 多 需要 配置 的 地 方 。 它 有 一 系列 复杂 的 缓存 和 文件 设计 可 以 提升 性 
能 ， 以 及 保证 ACID 特性 ， 并 且 每 一 部 分 都 是 可 配置 的 ， 图 8-1 曾 述 了 
这 些 文件 和 缓存 。 


对 于 常见 的 应 用 ， 最 重要 的 一 小 部 分 内 容 是 InnoDB 日 志文 件 大 
小 、ImnnoDB 怎 样 刷新 它 的 日 志 缓 冲 ， 以 及 InnoDB 怎 样 执行 O。 


Buffer poo! Log buffer 
写 事务 日 志 | 


+ 
| Doubtewrite 
buffer | 
数据 
xe 


图 8-1: InnoDB 的 缓存 和 文件 
InnoDB 事 务 日 志 


InnoDB 使 用 日 志 来 减少 提交 事务 时 的 开销 。 因 为 日 志 中 已 经 记录 
了 事务 ， 就 无 须 在 每 个 事务 提交 时 把 缓冲 池 的 脏 块 刷新 (flush) 到 磁 
盘 中 。 事 务 修改 的 数据 和 索引 通常 会 映射 到 表 空 间 的 随机 位 置 ， 所 以 
刷新 这 些 变更 到 磁盘 需要 很 多 随机 IO。InnoDB 假 设 使 用 的 是 常规 磁 
盘 (MRAZ) ， 随 机 IO 比 顺 序 IO 要 昂贵 得 多 ， 因 为 一 个 IO 请 求 需 
要 时 间 把 磁头 移 到 正确 的 位 置 ， 然 后 等 待 磁盘 上 读 出 需要 的 部 分 ， 再 
转 到 开始 位 置 。 


InnoDB 用 日 志 把 随机 WO 变 成 顺序 WO。 一 旦 日 志 安 全 写 到 磁盘 ， 
事务 就 持久 化 了 ， 即 使 变更 还 没 瑟 到 数据 文件 。 如 果 一 些 糟糕 的 事情 
RET (例如 断 电 了 ) ，InnoDB 可 以 重 放 日 志 并 且 恢 复 已 经 提交 的 事 


务 。 


当然 ，InnoDB 最 后 还 是 必须 把 变更 写 到 数据 文件 ， 因 为 日 志 有 固 
定 的 大 小 。InnoDB 的 日 志 是 环形 方式 写 的 : 当 写 到 日 志 的 尾部 ， 会 重 
新 跳 转 到 开头 继续 写 ， 但 不 会 覆盖 还 没 应 用 到 数据 文件 的 日 志 记录 ， 
因为 这 样 做 会 清 掉 已 提交 事务 的 唯一 持久 化 记录 。 


InnoDB 使 用 一 个 后 台 线 程 智能 地 刷新 这 些 变 更 到 数据 文件 。 这 个 
线程 可 以 批量 组 合 写 入 ， 使 得 数据 写 入 更 顺序 ， 以 提高 效率 。 实 际 
上 ， 事 务 日 志 把 数据 文件 的 随机 LO 转换 为 几乎 顺序 的 日 志文 件 和 数据 
文件 W/O。 把 刷新 操作 转移 到 后 台 使 查询 可 以 更 快 完成 ， 并 且 组 和 查询 
高 峰 时 1/O 系 统 的 压力 。 


整体 的 日 志文 件 大 小 受 控 于 innodb log file size 和 
innodb_log_files_in_group 两 个 参数 ， 这 对 写 性 能 非常 重要 。 日 志文 件 
的 总 大 小 是 每 个 文件 的 大 小 之 和 。 默 认 情 况 下 ， 只 有 两 个 5MB 的 文 
件 ， 总 共 10MB。 对 高 性 能 工作 来 说 这 太 小 了 。 至 少 需要 几 百 MB ， 或 
者 甚至 上 GB 的 日 志文 件 。 


InnoDB 使 用 多 个 文件 作为 一 组 循环 日 志 。 通 常 不 需要 修改 默认 的 
日 志 数 量 ， 只 修改 每 个 日 志文 件 的 大 小 即 可 。 要 修改 日 志文 件 大 小 ， 
需要 完全 关闭 MySQL ， 将 旧 的 日 志文 件 移 到 其 他 地 方 保存 ， 重 新 配置 
人 参数， 然后 重启 。 一 定 要 确保 MySQL 和 干净 地 关闭 了 ， 或 者 还 有 日 志 
件 可 以 保证 需要 应 用 到 数据 文件 的 事务 记录 ， 否 则 数据 库 就 无 法 恢复 
7! 当 重 启 服务 器 的 时 候 ， 查 看 MySQL 的 错误 日 志 。 在 重启 成 功 之 
后 ， 才 可 以 删除 旧 的 日 志文 件 。 


日 志文 件 大 小 和 日 志 缓 存 。 要 确定 理想 的 日 志文 件 大 小 ， 必 须 权 
衡 正常 数据 变更 的 开销 和 月 并 恢复 需要 的 时 间 。 如 果 日 志 太 小 ， 
InnoDB 将 必须 做 更 多 的 检查 点 ， 导 致 更 多 的 日 志 写 。 在 极 个 别 情况 


下 ， 写 语句 可 能 被 拖累 ， 在 日 志 没 有 空间 继续 写 入 前 ， 必 须 等 待 变更 
被 应 用 到 数据 文件 。 另 一 方面 ， 如 果 日 志 太 大 了 ， 在 骨 溃 恢复 时 
InnoDB 可 能 不 得 不 做 大 量 的 工作 。 这 可 能 极 大 地 增加 恢复 时 间 ， 尽 管 
这 个 处 理 在 新 的 MySQL 版 本 中 已 经 改善 很 多 。 


效 据 大 小 和 访问 模式 也 将 影响 恢复 时 间 。 假 设 有 一 个 1TB 的 数据 
和 16GB 的 缓冲 地 ， 并 且 全 部 日 志 大 小 是 128MB。 如 果 缓 冲 池 里 有 很 多 
脏 页 (例如 ， 页 被 修改 了 还 没 被 刷 写 回 数据 文件 ，， 并 且 它 们 均匀 地 
分 布 在 1TB 数 据 中 ， 朋 并 后 恢复 将 需要 相当 长 一 段 时 间 。InnoDB 必 须 
从 头 到 尾 扫描 日 志 ， 仔 细 检 查 数据 文件 ， 如 果 需 要 还 要 应 用 变更 到 数 
据 文件 。 这 是 很 庞大 的 读 写 操作 ! 另 一 方面 ， 如 果 变 更 是 局 部 性 的 
就 是 说 ， 如 果 只 有 几 百 MB 数据 被 频繁 地 变更 一 一 恢复 可 能 就 很 
快 ， 即 使 数据 和 日 志文 件 很 大 。 恢 复 时 间 也 依赖 于 普通 修改 操作 的 大 
小 ， 这 跟 数 据 行 的 平均 长 度 有 关系 。 较 短 的 行使 得 更 多 的 修改 可 以 放 
在 同样 的 日 志 中 ， 所 以 InnoDB 可 能 必须 在 恢复 时 重 放 更 多 修改 操作 


(13)。 


当 InnoDB 变 更 任何 数据 时 ， 会 写 一 条 变更 记录 到 内 存 日 志 缓 冲 
区 。 在 缓冲 满 的 时 候 、 事 务 提交 的 时 候 ， 或 者 每 一 秒 钟 ，ImnoDB 都 会 
刷 写 缓冲 区 的 内 容 到 磁盘 日 志文 件 一 一 无 论 上 述 三 个 条 件 哪 个 先 达 
到 。 如 果 有 大 事务 ， 增 加 日 志 缓冲 区 (默认 1MB) 大 小 可 以 帮助 减少 
1/O。 变量 innodb_log_buffer_size 可 以 控制 日 志 缓 冲 区 的 大 小 。 


通常 不 需要 把 日 志 缓 冲 区 设置 得 非常 大 。 推 荐 的 范围 是 1IMB 人 ~ 
8MB ， 一 般 来 说 足够 了 ， 除 非 要 写 很 多 相当 大 的 BLOB 记 录 。 相 对 于 
InnoDB 的 普通 数据 ， 日 志 条 目 是 非常 紧凑 的 。 它 们 不 是 基于 页 的 ， 所 
以 不 会 浪费 空间 来 一 次 存储 整个 页 。InnoDB 也 使 得 日 志 条 目 尽 可 能 地 
短 。 有 时 甚至 会 保存 为 图 数 号 和 C 国 数 的 参数 ! 


较 大 的 日 志 缓 冲 区 在 某 些 情况 下 也 是 有 好 处 的 : 可 以 减少 缓冲 区 
中 空间 分 配 的 争 用 。 当 配置 一 台 有 大 内 存 的 服务 器 时 ， 有 时 简单 地 分 
配 32MB 人 128MB 的 日 志 缓冲 ， 因 为 花费 这 么 点 相对 ( 整 机 ) 而 言 比 
较 小 的 内 存 并 没有 什么 不 好 ， 还 可 以 帮助 避免 压力 瓶颈 。 如 果 有 问 
题 ， 瓶 颈 一 般 会 表现 为 日 志 缓 冲 Mutex 的 竞争 。 


可 以 通过 检查 SHOW INNODB STATUS 的 输出 中 LOG 部 分 来 监控 
InnoDB 的 日 志和 日 志 缓 冲 区 的 IO 性 能 ， 通 过 观察 
Innodb_os_ log_ written 状态 变量 来 查看 InnoDB 对 日 志文 件 写 出 了 多 少 
数据 。 一 个 好 用 的 经 验 法 则 是 ， 查 看 10 人 100 秒 间隔 的 数字 ， 然 后 记录 
峰值 。 可 以 用 这 个 来 判断 日 志 缓冲 是 否 设置 得 正好 。 例 如 ， 若 看 到 峰 
值 是 每 秒 写 100KB 数 据 到 日 志 ， 那 么 LIMB 的 日 志 缓冲 可 能 足够 了 。 也 
可 以 使 用 这 个 衡量 标准 来 决定 日 志文 件 设置 多 大 会 比较 好 。 如 果 峰 值 
是 100KB/s， 那 么 256MB 的 日 志文 件 足 够 存储 至 少 2 560 秒 的 日 志 记 
录 。 这 看 起 来 足够 了 。 作 为 一 个 经 验 法 则 ， 日 志文 件 的 全 部 大 小 ， 应 
该 足够 容纳 服务 器 一 个 小 时 的 活动 内 容 。 


InnoDB 怎 样 刷新 日 志 缓 冲 。 当 InnoDB 把 日 志 缓 冲刷 新 到 磁盘 日 志 
文件 时 ， 先 会 使 用 一 个 Mutex 锁 住 缓 冲 区 ， 刷 新 到 所 需要 的 位 置 ， 然 
后 移动 剩 下 的 条 目 到 缓冲 区 的 前 面 。 当 Mnutex 释 放 时 ， 可 能 有 超过 一 
个 事务 已 经 准备 好 刷新 其 日 志 记 录 。InnoDB 有 一 个 Group Commit 功 
能 ， 可 以 在 一 个 IO 操作 内 提交 多 个 事务 ， 但 是 在 MySQL 5.0 中 当 打 开 
二 进 制 日 志 时 这 个 功能 就 不 能 用 了 。 我 们 在 前 一 章 写 了 一 些 关 于 
Group Commit 的 东西 。 


日 志 缓 冲 必 须 被 刷新 到 持久 化 存储 ， 以 确保 提交 的 事务 完全 被 持 
久 化 了 了。 如 果 和 持久 相 比 更 在 乎 性 能 ， 可 以 修改 


innodb_flush_log_at_trx_commit 变 量 来 控制 日 志 缓冲 刷新 的 频繁 程度 。 
可 能 的 设置 如 下 : 


0 
把 日 志 缓冲 写 到 日 志文 件 ， 并 且 每 秒 钟 刷新 一 次 ， 但 是 事务 
提交 时 不 做 任何 事 。 
1 
将 日 志 缓冲 写 到 日 志文 件 ， 并 且 每 次 事务 提交 都 刷新 到 持久 
化 存储 。 这 是 默认 的 〈 并 且 是 最 安全 的 ) 设置 ， 该 设置 能 保证 不 
会 丢失 任何 已 经 提交 的 事务 ， 除 非 磁 盘 或 者 操作 系统 是 “ 伪 ” 刷 
新 。 
2 


每 次 提交 时 把 日 志 缓 冲 写 到 日 志文 件 ， 但 是 并 不 刷新 。 
InnoDB 每 秒 钟 做 一 次 刷新 。0 与 2 最 重要 的 不 同 是 (也 是 为 什么 2 
是 更 合适 的 设置 ) ， 如 果 MySQL 进 程 “ 挂 了 ”， 2 不 会 丢失 任何 事 
务 。 如 果 整 个 服务 器 “ 挂 了 ”或 者 断 电 了 ， 则 还 是 可 能 会 丢失 一 些 


事务 。 


了 解 清 楚 “ 把 日 志 组 冲 写 到 日 志文 件 " 和 “把 日 志 刷 新 到 持久 化 存 
储 ” 之 间 的 不 同 是 很 重要 的 。 在 大 部 分 操作 系统 中 ， 把 缓冲 写 到 日 志 只 
是 简单 地 把 数据 从 InnoDB 的 内 存 缓冲 转移 到 了 操作 系统 的 缓存 ， 也 是 
在 内 存 里 ， 并 没有 真 的 把 数据 瑟 到 了 持久 化 存储 。 


因此 ， 如 果 MySQL 朋 溃 了 或 者 电 产 断 电 了 ， 设 置 0 和 2 通 音 会 导 至 
最 多 一 秒 的 数据 丢失 ， 因 为 数据 可 能 只 存在 于 操作 系统 的 缓存 。 我 们 
说 “通常 *”， 因 为 不 论 如 何 InnoDB 会 每 秒 尝试 刷新 日 志文 件 到 磁盘 ， 但 
是 在 一 些 场 景 下 也 可 能 丢失 超过 1 秒 的 事务 ， 例 如 当 刷 新 被 推迟 了 。 


与 此 相反 ， 把 日 志 刷 新 到 持久 化 存储 意味 着 InnoDB 请 求 操 作 系 统 
把 数据 刷 出 缓存 ， 并 且 确 认 写 到 磁盘 了 。 这 是 一 个 阻塞 VO 的 调用 ， 直 
到 数据 被 完全 写 回 才 会 完成 。 因 为 写 数 据 到 磁盘 比较 慢 ， 当 
innodb_flush_log_at_trx_commit 被 设置 为 1 时 ， 可 能 明显 地 降低 InnoDB 
每 秒 可 以 提交 的 事务 数 。 今 天 的 高 速 驱动 器 (1 多 可 能 每 秒 只 能 执行 一 两 
百 个 磁盘 事务 ， 受 限于 磁盘 旋转 速度 和 寻 道 时 间 。 


有 时 硬盘 控制 器 或 者 操作 系统 假装 做 了 刷新 ， 其 实 只 是 把 数据 放 
到 了 另 一 个 缓存 ， 例 如 磁盘 自己 的 缓存 。 这 更 快 但 是 很 危险 ， 因 为 如 
果 驱 动 器 断 电 ， 数 据 依 然 可 能 丢失 。 这 甚至 比 设 置 
innodb_flush_log_at_trx_commit 为 不 为 1 的 值 更 糟糕 ， 因 为 这 可 能 导 宇 
数据 损坏 ， 不 仅仅 是 丢失 事务 。 


1% Binnodb_flush_log_at_trx_commitN RAIN (BA RES MARS 
务 。 然 而 ， 如 果 不 在 意 持久 性 (ACID 中 的 D) ， 那 么 设置 为 其 他 的 值 
也 是 有 用 的 。 也 许 你 只 是 想 拥 有 InnoDB 的 其 他 一 些 功 能 ， 例 如 聚 族 索 
引 、 防 止 数据 损坏 ， 以 及 行 锁 。 但 仅仅 因为 性 能 原因 用 InnoDB 替 换 
MyISAM 的 情况 也 并 不 少见 。 


高 性 能 事务 处 理 需 要 的 最 佳 配 SB 是 把 
innodb_flush_log_at_trx_commit 设 置 为 1 且 把 日 志文 件 放 到 一 个 有 电 闻 
保护 的 写 缓 存 的 RAID 卷 中 。 这 兼顾 了 安全 和 速度 。 事 实 上 ， 我 们 敢 说 


任何 希望 能 打 过 高 负荷 工作 负载 的 产品 数据 库 服务 器 ， 都 需要 有 这 种 
类 型 的 硬件 。 


Percona Server 扩 展 了 innodb_fush_log_at_trx_commit 变 量 ， 使 得 它 
成 为 一 个 会 话 级 变量 ， 而 不 是 一 个 全 局 变量 。 这 人 允许 有 不 同 的 性 能 和 
持久 化 要 求 的 应 用 ， 可 以 使 用 同样 的 数据 库 ， 同 时 又 避免 了 标准 
MySQL 提 供 的 一 刀 切 的 解决 方案 。 


InnoDB 怎 样 打开 和 刷新 日 志 以 及 数据 文件 


使 用 innodb_fush_method 选 项 可 以 配置 InnoDB 如 何 跟 文件 系统 相 
互 作 用 。 从 名 字 来 看 ， 会 以 为 只 能 影响 mnoDB 怎 么 写 数据 ， 实 际 上 还 
影响 了 InnoDB 怎 么 读数 据 。Windows 和 非 windows 的 操作 系统 对 这 个 
选项 的 值 是 互 斥 的 : async_unbuffered、unbuffered 和 normal 只 能 在 
Windows 下 使 用 ， 并 且 Windows 下 不 能 使 用 其 他 的 值 。 在 windows 下 默 
认 值 是 unbuffered ， 其 他 操作 系统 都 是 fdatasync。 (如 果 SHOW 
GLOBAL VARIABLES 显 示 这 个 变量 为 空 ， 意 味 着 它 被 设置 为 默认 值 
了 。) 


CE 改变 InnoDB 执 行 UO 操作 的 方式 可 以 显著 地 影响 性 能 ， 所 以 请 确认 你 明白 了 在 
做 什么 后 再 去 做 改动 ! 


这 是 个 有 点 难以 理解 的 选项 ， 因 为 它 既 影响 日 志文 件 ， 也 影响 数 
据 文件 ， 而 且 有 时 候 对 不 同类 型 的 文件 的 处 理 也 不 一 样 。 如 果 有 一 个 
选项 来 配置 日 志 ， 另 一 个 选项 来 配置 数据 文件 ， 这 样 最 好 了 ， 但 实际 
上 它们 混合 在 同一 个 配置 项 中 。 


下 面 是 一 些 可 能 的 值 : 
fdatasync 


这 在 非 wWindows 系 统 上 是 默认 值 : InnoDB 用 fsync() 来 刷新 数 
据 和 日 志文 件 。 


InnoDB 通 常用 fsync(O 代 蔡 fdatasyncO0 ， 即 使 这 个 值 似 乎 表达 
的 是 相反 的 意思 。fdatasync0 跟 fsyncO 相 似 ， 但 是 只 刷新 文件 的 数 
据 ， 而 不 包括 元 数据 〈 最 后 修改 时 间 ， 等 等 ) 。 因 此 ，fsyncO 会 
导致 更 多 的 TO。 然 而 InnoDB 的 开发 者 都 很 保守 ， 他 们 发 现 某 些 

景 下 fdatasync0O 会 导致 数据 损坏 。InnoDB 决 定 了 哪些 方法 可 以 
更 安全 地 使 用 ， 有 一 些 是 编译 时 设置 的 ， 也 有 一 些 是 运行 时 设置 
的 。 它 使 用 尽 可 能 最 快 的 安全 方法 。 


使 用 fsync() 的 缺点 是 操作 系统 至 少 会 在 自己 的 缓存 中 缓冲 一 
些 数 据 。 理 论 上 ， 这 种 双重 缓冲 是 浪费 的 ， 因 为 InnoDB 管 理 自己 
的 缓冲 比 操作 系统 能 做 的 更 加 智能 。 然 而 ， 最 后 的 影响 跟 操作 系 
统 和 文件 系统 非常 相关 。 如 果 能 让 文件 系统 做 更 智能 的 MO 调度 和 
批量 操作 ， 双 重 缓冲 可 能 并 不 是 坏事 。 有 的 文件 系统 和 操作 系统 
可 以 积累 写 操作 后 合并 执行 ， 通 过 对 IO 重新 排序 来 提升 效率 ， 或 
者 并 发 写 入 多 个 设备 。 它 们 也 可 能 做 预 读 优 化 ， 例 如 ， 若 连续 请 
求 了 几 个 顺序 的 块 ， 它 会 通知 硬盘 预 读 下 一 个 块 。 


有 时 这 些 优化 有 帮助 ， 有 时 没有 。 如 果 你 好 奇 你 的 系统 中 的 
fsyncO 会 做 哪些 具体 的 事 ， 可 以 阅读 系统 的 帮助 手册 ， 看 下 
fsync(2)o 


innodb_file_per _ table 选项 会 导致 每 个 文件 独立 地 做 fsync0)， 
这 意味 着 写 多 个 表 不 能 合并 到 一 个 WO 操作 。 这 可 能 导致 InnoDB 
执行 更 多 的 fsync() 操 作 。 


O_DIRECT 


InnoDB 对 数据 文件 使 用 O_DIRECT 标 记 或 directio0 函 数 ， 这 
依赖 于 操作 系统 。 这 个 设置 并 不 影响 日 志文 件 并 且 不 是 在 所 有 的 
类 UNIX 系 统 上 都 有 效 。 但 至 少 GNU/Linux、 FreeBSD, AKR 
Solaris (5.0 以 后 的 新 版 本 ) 是 支持 的 。 不 像 O_DSYNC 标 记 , È 
同时 会 影响 读 和 写 。 


这 个 设置 依然 使 用 fsync() 来 刷新 文件 到 磁盘 ， 但 是 会 通知 操 
作 系 统 不 要 缓存 数据 ， 也 不 要 用 预 读 。 这 个 选项 完全 关闭 了 操作 
系统 缓 仔 ， 并 且 使 所 有 的 读 和 写 都 直接 通过 存储 设备 ， 避 免 了 双 
重 缓冲 。 


在 大 部 分 系统 上 ， 这 个 实现 用 fcntl0 调 用 来 设置 文件 描述 符 的 
O_DIRECT 标 记 ， 所 以 可 以 阅读 fcntl(2) 的 手册 页 来 了 解 系统 上 这 
个 函数 的 细节 。 在 Solaris 系 统 ， 这 个 选项 用 directio0)。 


如 果 RAID 卡 支持 预 读 ， 这 个 设置 不 会 关闭 RAID 卡 的 预 读 
(5)。 这 个 设置 只 能 关闭 操作 系统 和 文件 系统 的 预 读 。 


如 果 使 用 O_DIRECT 选 项 ， 通 常 需要 带 有 写 绥 存 的 RAID 卡 ， 
并 且 设 置 为 Write-Back 策 略 49)， 因 为 这 是 典型 的 唯一 能 保持 好 性 
能 的 方法 。 当 InnoDB 和 实际 存储 设备 之 间 没 有 缓冲 时 使 用 
O_DIRECT， 例 如 当 RAID 卡 没有 写 缓 存 时 ， 可 能 导致 严重 的 性 能 


下 降 。 现 在 有 了 多 个 写 线程 ， 这 个 问题 稍微 小 一 点 (并 且 MySQL 
5.5 提 供 了 原生 异步 WO) ， 但 是 通常 还 是 有 问题 。 


这 个 选项 可 能 导致 服务 器 预 热 时 间 变 长 ， 特 别 是 操作 系统 的 
缓存 很 大 的 时 候 。 也 可 能 导致 小 容量 的 缓冲 池 〈 例 如 ， 默 认 大 小 
的 缓冲 池 ) 比 缓冲 WO (Buffered 10) 方式 操作 要 慢 的 多 。 这 是 因 
为 操作 系统 不 会 通过 保持 更 多 数据 在 自己 的 缓存 中 来 "帮助 ”( 提 
升 性 能 ) 。 如 果 需 要 的 数据 不 在 缓冲 池 ，InnoDB 将 不 得 不 直接 从 
磁盘 读 取 。 


这 个 选项 不 会 对 innodb_file_per_table 产 生 任何 额外 的 损失 。 
相反 ， 如 果 不 用 innodb_file_per_table， 当 使 用 O_DIRECT 时 ， 可 
能 由 于 一 些 顺 序 IO 而 遭受 性 能 损失 。 这 种 情况 的 发 生 是 因为 一 些 
文件 系统 (包括 Linux 所 有 的 ext 文 件 系 统 ) 每 个 inode 有 一 个 
Mutex。 当 在 这 些 文件 系统 上 使 用 O_DIRECT 时 ， 确 实 需要 打开 
innodb_file_per_table。 我 们 下 一 章 会 更 深入 地 探究 文件 系统 。 


ALL_O_DIRECT 


这 个 选项 在 Percona Server 和 MariaDB 中 可 用 。 它 使 得 服务 器 
在 打开 日 志文 件 时 ， 也 能 使 用 标准 MySQL 中 打开 数据 文件 的 方式 
(O_DIRECT) 。 


O_DSYNC 
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使 得 所 有 的 写 同 步 换个 说 法 ， 只 有 数据 写 到 磁盘 后 写 操作 才 
返回 。 这 个 选项 不 影响 数据 文件 。 


O_SYNC 标 记 和 O_DIRECT 标 记 的 不 同 之 处 在 于 O_SYNC 没 
有 禁用 操作 系统 层 的 缓存 。 因 此 ， 它 没有 避免 双重 缓冲 ， 并 且 它 
没有 使 写 操作 直接 操作 到 磁盘 。 用 了 0O_SYNC 标 记 ， 在 缓存 中 写 
数据 ， 然 后 发 送 到 磁盘 。 


使 用 O_SYNC 标 记 做 同步 写 操 作 ， 听 起 来 可 能 跟 fsync() 做 的 
事情 非常 相似 ， 但 是 它们 两 个 的 实现 无 论 在 操作 系统 层 还 是 在 硬 
件 层 都 非常 不 同 。 用 了 O_SYNC 标 记 后 ， 操 作 系 统 可 能 把 “使 用 同 
步 WO” 标 记 下 传 给 硬件 层 ， 告 诉 设备 不 要 使 用 缓存 。 另 一 方面 ， 
fsyncO 告 诉 操 作 系统 把 修改 过 的 缓冲 数据 刷 写 到 设备 上 ， 如 果 设 
备 支持 ， 紧 接着 会 传递 一 个 指令 给 设备 刷新 它 自 己 的 缓存 ， 所 
以 ， 毫 无 疑问 ， 数 据 肯定 记录 在 了 物理 媒介 上 。 另 一 个 不 同 是 ， 
用 了 0O_SYNC 的 话 ， 每 个 write0) 或 pwrite0 操 作 都 会 在 函数 完成 之 
前 把 数据 同步 到 磁盘 ， 完 成 前 函数 调用 是 阻塞 的 。 相 对 来 看 ， 不 
用 O_SYNC 标 记 的 写 入 调用 fsyncO 人 允许 写 操作 积累 在 缓存 (使 得 
每 个 写 更 快 ) ， 然 后 一 次 性 刷新 所 有 的 数据 。 


再 一 次 吐槽 下 这 个 名 称 ， 这 个 选项 设置 O0_SYNC 标 记 ， 不 是 
O_DSYNC 标 记 ， 因 为 InnoDB 开 发 者 发 现 了 O_DSYNC 的 Bug。 
O_SYNC 和 0O_DSYNC 类 似 于 fysnc0 和 fdqatasyncO0: O_SYNC 同 时 
同步 数据 和 元 数据 ， 但 是 O_DSYNC 只 同步 数据 。 


async_unbuffered 


这 是 windows 下 的 默认 值 。 这 个 选项 让 InnoDB 对 大 部 分 写 使 
用 没有 缓冲 的 IO; 例外 是 当 innodb flush_log_at_trx_commit 设 置 
为 2 的 时 候 ， 对 日 志文 件 使 用 缓冲 IO。 


这 个 选项 使 得 InnoDB 在 Windows 2000、XP， 以 及 更 新 版 本 
中 对 数据 读 写 都 使 用 操作 系统 的 原生 异步 (BSN) VO. EEE 
的 Windows 版 本 中 ，InnoDB 使 用 自己 用 多 线程 模拟 的 异步 1/O。 


unbuffered 


只 对 Windows 有 效 。 这 个 选项 与 async_unbuffered 类 似 ， 但 是 
不 使 用 原生 异步 1/O。 


normal 


只 对 Windows 有 效 。 这 个 选项 让 InnoDB 不 要 使 用 原生 异步 1/O 
或 者 无 缓冲 LO。 


Nosync 和 1littlesync 


只 为 开发 使 用 。 这 两 个 选项 在 文档 中 没有 并 且 对 生产 环境 来 
说 不 安全 ， 不 应 该 使 用 这 个 。 


如 果 这 些 看 起 来 像 是 一 堆 不 带 建议 的 说 明 ， 那 么 下 面 是 一 些 建 
W: 如 果 使 用 类 UNIX 操 作 系统 并 且 RAID 控 制 器 带 有 电池 保护 的 写 缓 
存 ， 我 们 建议 使 用 O_DIRECT 。 如 果 不 是 这 样 ， 默 认 值 或 者 
O_DIRECT 都 可 能 是 最 好 的 选择 ， 具 体 要 看 应 用 类 型 。 


InnoDB 表 空间 


InnoDB 把 数据 保存 在 表 空间 内 ， 本 质 上 是 一 个 由 一 个 或 多 个 磁盘 
文件 组 成 的 虚拟 文件 系统 。InnoDB 用 表 空 间 实现 很 多 功能 ， 并 不 只 是 


存储 表 和 索引 。 它 还 保存 了 回 滚 日 志 (旧版 本 行 ) 、 插 入 缓冲 (Insert 
Buffer) 、 双 写 缓 冲 (Doublewrite Buffer， 后 面 的 章节 里 就 会 描述 ) , 
以 及 其 他 内 部 数据 结构 。 


配置 表 空间 。 通 过 innodb_data_file_path 配 置 项 可 以 定制 表 空 间 文 
件 。 这 些 文件 都 放 在 innodb_data_ home _dir 措 定 的 目录 下 。 这 是 一 个 例 
F 


innodb_data_home_dir = /var/lib/mysql/ 


innodb_data_file_path = ibdatai1:1G;ibdata2:1G;ibdata3:1G 


这 里 在 三 个 文件 中 创建 了 3GB 的 表 空 间 。 有 时 人 们 并 不 清楚 可 以 
使 用 多 个 文件 分 散 驱 动 器 的 负载 ， 像 这 样 : 


innodb_data_file_path = 


/disk1/ibdatai1:1G;/disk2/ibdata2:1G;... 


在 这 个 例子 中 ， 表 空间 文件 确实 放 在 代表 不 同 驱动 器 的 不 同 目录 
中 ，InnoDB 把 这 些 文 件 首尾 相连 组 合 起 来 。 因 此 ， 通 常 这 种 方式 并 不 
能 获得 太 多 收益 。InnoDB 先 填 满 第 一 个 文件 ， 当 第 一 个 文件 满 了 再 用 
第 二 个 ， 如 此 循环 ， 负 和 载 并 没有 真 的 按照 希望 的 高 性 能 方式 分 布 。 用 
RAID 控 制 器 是 分 布 负载 更 聪明 的 方式 。 


为 了 允许 表 空间 在 超过 了 分 配 的 空间 时 还 能 增长 ， 可 以 像 这 样 配 
置 最 后 一 个 文件 自动 扩展 : 


...ibdata3:1G:autoextend 


默认 的 行为 是 创建 单个 10MB 的 目 动 扩展 文件 。 如 果 让 文件 可 以 
自动 扩展 ， 那 么 最 好 给 表 空 间 大 小 设置 一 个 上 限 ， 别 让 它 扩展 得 太 
大 ， 因 为 一 旦 扩展 了 ， 束 不 能 收缩 回来 。 例 如 ， 下 面 的 例子 限制 了 目 
动 扩展 文件 最 多 到 2GB: 


...,ibdata3:1G:autoextend:max:2G 


管理 一 个 单独 的 表 空 间 可 能 有 点 麻烦 ， 尤 其 是 如 果 它 是 自动 扩展 
的 ， 并 且 和 希望 回收 空间 时 (因为 这 个 原因 ， 我 们 建议 关闭 自动 扩展 功 
能 ， 至 少 设置 一 个 合理 的 空间 范围 ) 。 回 收 空间 唯一 的 方式 是 导出 数 
据 ， 关 闭 MySQL， 删 除 所 有 文件 ， 修 改 配置 ， 重 启 ， 让 InnoDB 创 建新 
的 数据 文件 ， 然 后 导入 数据 。InnoDB 这 种 表 空 间 管理 方式 很 让 人 头疼 
不 能 简单 地 删除 文件 或 者 改变 大 小 。 如 果 表 空间 损坏 了 ，InnoDB 
会 拒绝 启动 。 对 日 志文 件 也 一 样 的 严格 。 如 果 像 MyISAM 一 样 随便 移 
Bett, FALE! 


innodb_file_per_table 选 项 让 InnoDB 为 每 张 表 使 用 一 个 文件 ， 
MySQL 4.1 和 之 后 的 版 本 都 支持 。 它 在 数据 字典 存储 为 “ 表 名 .ibd” 的 数 
据 。 这 使 得 删除 一 张 表 时 回收 空间 简单 多 了 ， 并 且 可 以 容易 地 分 散 表 
到 不 同 的 磁盘 上 。 然 而 ， 把 数据 放 到 多 个 文件 ， 总 体 来 说 可 能 导致 更 
多 的 空间 浪费 ， 因 为 把 单个 mnoDB 表 空间 的 内 部 碎片 浪费 分 布 到 了 多 
个 .ibd 文 件 。 对 于 非常 小 的 表 ， 这 个 问题 更 大 ， 因 为 InnoDB 的 页 大 小 
是 16 KB。 即 使 表 只 有 1 KB 的 数据 ， 仍 然 需要 至 少 16 KB 的 磁盘 空间 。 


即使 打开 innodb_file_per_table 选 项 ， 依 然 需要 为 回 滚 日 志和 其 他 
系统 数据 创建 共享 表 空间 。 没 有 把 所 有 数据 存在 其 中 是 明智 的 做 法 ， 
但 最 好 还 是 关闭 它 的 自动 增长 ， 因 为 无 法 在 不 重新 导入 全 部 数据 的 情 
况 下 给 共享 表 空 间 瘦 身 。 


一 些 人 喜欢 使 用 innodb_file_per_table， 只 是 因为 特别 容易 管理 ， 
并 且 可 以 看 到 每 个 表 的 文件 。 例 如 ， 可 以 通过 查看 文件 的 大 小 来 确认 
表 的 大 小 ， 这 比 用 SHOW TABLE STATUS 来 看 快 多 了 ， 这 个 命令 需 
执行 很 多 复杂 的 工作 来 判断 给 一 个 表 分 配 了 多 少 页 面 。 


e 设置 innodb _file_per_ table 也 有 不 好 的 一 面 : 更 差 的 DROP TABLE 
性 能 。 这 可 能 足以 导致 显而易见 的 服务 器 端 阻塞 。 因 为 有 如 下 两 
个 原因 : 

删除 表 需 要 从 文件 系统 层 去 掉 (删除 文件 ， 这 可 能 在 某 些 文件 
系统 (ext3， 说 的 就 是 你 ) 上 会 很 慢 。 可 以 通过 欺骗 文件 系统 来 
缩短 这 个 过 程 : 把 .ibd 文 件 链 接 到 一 个 0 字 节 的 文件 ， 然 后 手动 删 
除 这 个 文件 ， 而 不 用 等 待 MySQL 来 做 。 

当 打 开 这 个 选项 ， 每 张 表 都 在 InnoDB 中 使 用 自己 的 表 空 间 。 结 果 
是 ， 移 除 表 空间 实际 上 需要 InnoDB 锁 定 和 扫描 缓冲 池 ， 查 找 属于 
这 个 表 空 间 的 页 面 ， 在 一 个 有 庞大 的 缓冲 池 的 服务 器 上 做 这 个 操 
作 是 非常 慢 的 。 如 果 打 算 删 除 很 多 InnoDB 表 (包括 临时 表 ) FE 
用 了 innodb_file_ per table， 可 能 会 从 Percona Server 包 含 的 一 个 修 
复 中 获 益 ， 它 可 以 让 服务 器 慢 慢 地 清理 掉 属 于 被 删除 表 的 页 面 。 
只 需要 设置 innodb_lazy_drop_table 这 个 选项 。 


什么 是 最 终 的 建议 ? 我 们 建议 使 用 innodb_file_per_table 并 且 给 共 
享 表 空 间 设置 大 小 范围 ， 这 样 可 以 过 得 舒服 点 (不 用 处 理 那 些 空间 回 


收 的 事 ) 。 如 果 遇 到 任何 头痛 的 场景 ， 就 像 上 面 说 的 ， 考 虑 用 下 
Percona 的 那个 修复 。 


提醒 一 下 ， 事 实 上 没有 必要 把 InnoDB 文 件 放 在 传统 的 文件 系统 
上 。 像 许多 的 传统 数据 库 服务 器 一 样 ，InnoDB 提 供 使 用 裸 设备 的 选项 
一 一 例如 ， 一 个 没有 格式 化 的 分 区 一 一 作为 它 的 存储 。 然 而 ， 今 天 的 
文件 系统 已 经 可 以 存放 足够 大 的 文件 ， 所 以 已 经 没有 必要 使 用 这 个 选 
项 。 使 用 裸 设备 可 能 提升 几 个 百分点 的 性 能 ， 但 是 我 们 不 认为 这 点 小 
提升 足以 抵消 这 样 做 市 来 的 坏处 ， 我 们 不 能 直接 用 文件 管理 数据 。 当 
把 数据 存在 一 个 裸 设备 分 区 时 ， 不 能 使 用 mv、cp 或 其 他 任何 工具 来 操 
作 它 。 最 终 ， 这 点 小 的 性 能 收益 显然 不 值得 。 


行 的 旧版 本 和 表 空 间 “在 一 个 写 压 力 大 的 环境 下 ，InnoDB 的 表 空 
间 可 能 增长 得 非常 大 。 如 果 事 务 保持 打开 状态 很 义 〈 即 使 它们 没有 做 
任何 事 ) ， 并 且 使 用 默认 的 REPEATABLE READ 事 务 隔离 级 别 ， 
InnoDB 将 不 能 删除 旧 的 行 版 本 ， 因 为 没 提交 的 事务 依然 需要 看 到 它 
们 。InnoDB 把 旧版 本 存在 共享 表 空 间 ， 所 以 如 果 有 更 多 的 数据 在 更 
新 ， 共 享 表 空 间 会 持续 增长 。 有 时 这 个 问题 并 非 是 没 提交 的 事务 的 原 
因 ， 也 可 能 是 工作 负载 的 问题 : 清理 过 程 只 有 一 个 线程 处 理 ， 直 到 最 
近 的 MySQL 版 本 才 改 进 ， 这 可 能 导致 清理 线程 处 理 速 度 跟 不 上 旧版 本 
行 数 增加 的 速度 。 


无 论 发 生 何 种 情况 ，SHOW INNODB STATUS 的 数据 都 可 以 帮助 
定位 问题 。 查 看 历史 链表 的 长 度 会 显示 了 回 滚 日 志 的 大 小 ， 以 页 为 单 
位 。 

分 析 TRANSACTIONS 部 分 的 第 一 行 和 第 二 行 可 以 证 实 这 个 观 
点 ， 这 部 分 展示 了 当前 事务 号 以 及 清理 线程 完成 到 了 哪个 点 。 如 果 这 


个 差距 很 大 ， 可 能 有 大 量 的 没有 清理 的 事务 。 


这 有 个 例子 : 


Trx id counter 0 80157601 


Purge done for trx's n:o <0 80154573 undo n:o <0 0 


事务 标识 是 一 个 64 比 特 的 数字 ， 由 两 个 32 比 特 的 数字 (在 更 新 版 
本 的 InnoDB 中 这 是 个 十 六 进 制 的 数字 ) 组 成 ， 所 以 需要 做 一 点 数学 计 
算 来 计算 差距 。 在 这 个 例子 中 就 很 简单 了 ， 因 为 最 高 位 是 0: 那么 有 80 
157 601-80 154 573=3 028 个 “潜在 的 ”没有 被 清理 的 事务 (innotop 可 以 
做 这 个 计算 ) 。 我 们 说 “潜在 的 ”， 是 因为 这 跟 有 很 多 没有 清理 的 行 是 
有 很 大 区 别 的 。 只 有 改变 了 数据 的 事务 才 会 创建 旧版 本 的 行 ， 但 是 有 
很 多 事务 并 没有 修改 数据 (相反 的 ， 一 个 事务 也 可 能 修改 很 多 行 ) 。 


如 果 有 个 很 大 的 回 滚 日 志 并 且 表 空间 因此 增长 很 快 ， 可 以 强制 
MySQL 减 速 来 使 mnoDB 的 清理 线程 可 以 跟 得 上 。 这 听 起 来 不 怎么 样 ， 
但 是 没 办 法 。 否 则 ，InnoDB 将 保持 数据 写 入 ， 填 充 磁 盘 直到 最 后 磁盘 
空间 爆满 ， 或 者 表 空 间 大 于 定义 的 上 限 。 


为 了 控制 写 入 速度 ， 可 以 设置 innodb_max_purge_lag 变 量 为 一 个 大 
于 0 的 值 。 这 个 值 表 示 InnoDB 开 始 延 迟 后 面 的 语句 更 新 数据 之 前 ， 可 
以 等 待 被 清除 的 最 大 的 事务 数量 。 你 必须 知道 工作 负载 以 决定 一 个 合 


理 的 值 。 人 例如， 事务 平均 影响 1KB 的 行 ， 并 且 可 以 容许 表 空 间 里 有 
100MB 的 未 清理 行 ， 那 么 可 以 设置 这 个 值 为 100000。 


牢记 ， 没 有 清理 的 行 版 本 会 对 所 有 的 查询 产生 影响 ， 因 为 它们 事 
实 上 使 得 表 和 索引 更 大 了 。 如 果 清 理 线 程 确实 跟 不 上 上， 性 能 可 能 显著 
的 下 降 。 设 置 innodb_max_purge_lag 变 量 也 会 降低 性 能 ， 但 是 它 的 伤害 
pub, Ug 


在 更 新 版 本 的 MySQL 中， 甚至 在 更 早 和 版 本 的 Percona Server 和 
MariaDB， 清 理 过 程 已 经 显著 地 提升 了 性 能 ， 并 且 从 其 他 内 部 工作 任 
务 中 分 离 出 来 。 甚 至 可 以 创建 多 个 专用 的 清理 线程 来 更 快 地 做 这 个 后 
台 工 作 。 如 果 可 以 利用 这 些 特 性 ， 会 比 限制 服务 器 的 服务 能 力 要 好 得 


多 。 
双 写 缓冲 (Doublewrite Buffer) 


InnoDB 用 双 写 缓冲 来 避免 页 没 写 完整 所 导致 的 数据 损坏 。 当 一 个 
磁盘 写 操作 不 能 完整 地 完成 时 ， 不 完整 的 页 写 入 就 可 能 发 生 ，16KB 的 
页 可 能 只 有 一 部 分 被 写 到 磁盘 上 。 有 多 种 多 样 的 原因 (AA, Bug, 
SS) 可 能 导致 页 没有 写 完整 。 双 写 缓冲 在 这 种 情况 发 生 时 可 以 保证 


数据 完整 性 。 


双 写 缓冲 是 表 空 间 一 个 特殊 的 保留 区 域 ， 在 一 些 连续 的 块 中 足够 
保存 100 个 页 。 本 质 上 是 一 个 最 近 写 回 的 页 面 的 备份 拷贝 。 当 InnoDB 
从 缓冲 池 刷 新 页 面 到 磁盘 时 ， 首 先 把 它们 写 (或 者 刷新 到 双 写 缓 
冲 ， 然 后 再 把 它们 写 到 其 所 属 的 数据 区 域 中 。 这 可 以 保证 每 个 页 面 的 
写 入 都 是 原子 并 且 持久 化 的 。 


这 意味 着 每 个 页 都 要 写 两 遍 ? 是 的 ， 但 是 因为 InnoDB 写 页 面 到 双 
写 缓冲 是 顺序 的 ， 并 且 只 调用 一 次 fsyncO 刷 新 到 磁盘 ， 所 以 实际 上 对 
性 能 的 冲击 是 比较 小 的 一 一 通常 只 有 几 个 百分点 ， 肯 定 没有 一 半 那 么 
多 ， 尽 管 这 个 开销 在 SSD 上 更 明显 ， 我 们 下 一 章 会 讨论 这 个 问题 。 更 
重要 的 是 ， 这 个 策略 允许 日 志文 件 更 加 高 效 。 因 为 双 写 缓冲 给 了 
InnoDB 一 个 非常 牢固 的 保证 ， 效 据 页 不 会 损坏 ，InnoDB 日 志 记 录 没 必 
要 包含 整个 页 ， 它 们 更 像 是 页 面 的 二 进 制 变化 量 。 


如 果 有 一 个 不 完整 的 页 写 到 了 双 写 缓冲 ， 原 始 的 页 依然 会 在 磁盘 
上 它 的 真实 位 置 。 当 InnoDB 恢 复 时 ， 它 将 用 原始 页 面 替 换 掉 双 写 缓冲 
中 的 损坏 页 面 。 然 而 ， 如 果 双 写 缓冲 成 功 写 入 ， 但 写 到 页 的 真实 位 置 
失败 了 ，InnoDB 在 恢复 时 将 使 用 双 写 缓冲 中 的 拷贝 来 蔡 换 。InnoDB 知 
道 什么 时 候 页 面 损 坏 了 ， 因 为 每 个 页 面 在 末尾 都 有 校 验 值 
(Checksum) 。 校 验 值 是 最 后 写 到 页 面 的 东西 ， 所 以 如 果 页 面 的 内 容 
跟 校 验 值 不 匹配 ， 说 明 这 个 页 面 是 损坏 的 。 因 此 ， 在 恢复 的 时 候 ， 
InnoDB 只 需要 读 取 双 写 缓冲 中 每 个 页 面 并 且 验 证 校 验 值 。 如 果 一 个 页 
面 的 校 验 值 不 对 ， 就 从 它 的 原始 位 置 读 取 这 个 页 面 。 


有 些 场景 下 ， 双 与 缓冲 确实 没 必 要 一 例如 ， 你 也 许 想 在 备 库 上 
禁止 双 写 缓冲 。 此 外 一 些 文件 系统 (例如 ZFS) 做 了 同样 的 事 ， 所 以 
没 必 要 再 让 InnoDB 做 一 遍 。 可 以 通过 设置 innodb_doublewrite 为 0 来 天 
闭 双 写 缓冲 。 在 Percona Server 中 ， 可 以 配置 双 写 缓冲 存 到 独立 的 文件 
中 ， 所 以 可 以 把 这 部 分 工作 压力 分 离 出 来 放 在 单独 的 盘 上 。 


其 他 的 VO 配置 项 


sync_pbinlog 选 项 控制 MySQL 怎 么 刷新 二 进 制 日 志 到 磁盘 。 默 认 值 
是 0， 意 味 着 MySQL 并 不 刷新 ， 由 操作 系统 自己 决定 什么 时 候 刷 新 缓 
存 到 持久 化 设备 。 如 果 这 个 值 比 0 大 ， 它 指定 了 两 次 刷新 到 磁盘 的 动作 
之 间 间 隔 多 少 次 二 进 制 日 志 写 操作 (如 果 autocommit 被 设置 了 ， 每 个 
独立 的 语句 都 是 一 次 写 ， 否 则 就 是 一 个 事务 一 次 写 ) 。 把 它 设置 为 0 和 
1 以 外 的 值 是 很 罕见 的 。 


如 果 没 有 设置 swnc_binlog 为 1， 那 么 朋 溃 以 后 可 能 导致 二 进 制 日 志 
没有 同步 事务 数据 。 这 可 以 轻易 地 导致 复制 中 断 ， 并 且 使 得 及 时 恢复 
变 得 不 可 能 。 无 论 如 何 ， 可 以 把 这 个 值 设置 为 1 来 获得 安全 的 保障 。 这 
样 就 会 要 求 MySQL 同 步 把 二 进 制 日 志和 事务 日 志 这 两 个 文件 刷新 到 两 
个 不 同 的 位 置 。 这 可 能 需要 磁盘 寻 道 ， 相 对 来 说 是 个 很 慢 的 操作 。 


像 InnoDB 日 志文 件 一 样 ， 把 二 进 制 日 志 放 到 一 个 带 有 电 闻 保护 的 
与 缓存 的 RAID 卷 ， 可 以 极 大 地 提升 性 能 。 事 实 上 ， 写 和 刷新 二 进 制 | 日 
志 缓 存 其 实 比 InnoDB 事 务 日 志 要 昂贵 多 了 ， 因 为 不 像 InnoDB 事 务 日 
志 ， 每 次 写 二 进 制 日 志 都 会 增加 它们 的 大 小 。 这 需要 每 次 写 入 文件 系 
统 都 更 新 元 信息 。 所 以 ， 设 置 syncbinog=1 可 能 比 
innodb_fush log _at trx_commit=1 对 性 能 的 损害 要 大 得 多 ， 尤 其 是 网 络 
文件 系统 ， 例 如 NFS。 


一 个 跟 性 能 无 关 的 提示 ， 关 于 二 进 制 日 志 : 如 果 和 希望 使 用 
expire_logs_days 选 项 来 自动 清理 旧 的 二 进 制 日 志 ， 就 不 要 用 rm 命令 去 
删 。 服 务 器 会 感到 困惑 并 且 拒 绝 自动 删除 它们 ， 并 且 PURGE 
MASTER LOGS 也 将 停止 工作 。 解 决 的 办 法 是 ， 如 果 发 现 了 这 种 情 
况 ， 就 手动 重新 同步 * 主 机 名 -bin.index” 文 件 ， 可 以 用 磁盘 上 现 有 日 志 
文件 的 列表 来 更 新 。 


我 们 将 在 下 一 章 更 深入 地 涉及 RAID， 但 是 值得 在 这 里 重复 一 下 ， 

把 这 有 电池 保护 写 缓存 的 高 质量 RAID 控 制 右 设置 为 使 用 写 回 

(Writeback) 策略 ， 可 以 支持 每 秒 数 千 的 写 入 ， 并 且 依然 会 保证 写 到 
持久 化 存储 。 数 据 写 到 了 这 有 电池 的 高 速 缓存 ， 所 以 即使 系统 断 电 它 
也 能 存在 。 但 电源 恢复 时 ，RAID 控 制 器 会 在 磁盘 被 设置 为 可 用 前 ， 把 
数据 从 缓存 中 写 到 磁盘 。 因 此 ， 一 个 带 有 电池 保护 写 缓存 的 RAID 控 制 
器 可 以 显著 地 提升 性 能 ， 这 是 非常 值得 的 投资 。 当 然 ，SSD 存 储 是 另 
一 个 选择 ， 我 们 也 会 在 下 一 章 讲 到 。 


8.5.2 MyISAM 的 W/O 配置 


让 我 们 从 分 析 MyISAM 怎 么 为 索引 操作 1/O 开 始 。MyISAM 通 常 每 
次 写 操作 之 后 就 把 索引 变更 刷新 磁盘 。 如 你 打算 在 一 张 表 上 做 很 多 修 
改 ， 那 么 毫 无 疑问 ， 批 量 操作 会 更 快 一 些 。 一 种 办 法 是 用 LOCK 
TABLES 延 迟 写 入 ， 直 到 解锁 这 些 表 。 这 是 个 提升 性 能 的 很 有 价值 的 
技巧 ， 因 为 它 使 得 你 精确 控制 哪些 写 被 延迟 ， 以 及 什么 时 候 把 它们 刷 
到 磁盘 。 可 以 精确 延迟 那些 希望 延迟 的 语句 。 


通过 设置 delay_key_write 变 量 ， 也 可 以 延迟 索引 的 写 入 。 如 果 这 
么 做 ， 修 改 的 键 缓冲 块 直到 表 被 关闭 才 会 刷新 。(18) 可 能 的 配置 如 下 : 


OFF 


MyISAM 每 次 写 操 作 后 刷新 键 缓冲 (AE, Key Buffer) 中 的 脏 
块 到 磁盘 ， 除 非 表 被 LOCK TABLES 锁 定 了 。 


ON 


打开 延迟 键 写 入 ， 但 是 只 对 用 DELAY_KEY_ WRITE 选项 创建 的 表 
有 效 。 


ALL 
所 有 的 MyISAM 表 都 会 使 用 延迟 键 写 入 。 


延迟 键 写 入 在 某 些 场景 下 可 能 很 有 帮助 ， 但 是 通常 不 会 市 来 很 大 
的 性 能 提升 。 当 键 缓冲 的 读 命中 很 好 但 写 命 中 不 好 时 ， 数 据 又 比较 
小 ， 这 可 能 很 有 用 。 当 然 也 有 一 小 部 分 缺点 : 


。 如 果 服 务 器 缓存 并 且 块 没有 被 刷 到 磁盘 ， 索 引 可 能 会 损坏 。 

。 如 果 很 多 写 被 延迟 了 ，MySQL 可 能 需要 花费 更 长 时 间 去 关闭 表 ， 
因为 必须 等 待 缓冲 刷新 到 磁盘 。 在 MySQL 5.0 这 可 能 引起 很 长 的 
表 缓 存 锁 。 

由 于 上 面 提 到 的 原因 ，FLUSH TABLES 可 能 需要 很 长 时 间 。 如 果 
为 了 做 逻辑 卷 (LVM) 快照 或 者 其 他 备份 操作 ， 而 执行 FLUSH 
TABLES WITH READ LOCK， 那 可 能 增加 操作 的 时 间 。 

键 缓冲 中 没有 刷 回 去 的 脏 块 可 能 占用 空间 ， 导 致 从 磁盘 上 读 取 的 
新 块 没有 空间 存放 。 因 此 ， 查 询 语句 可 能 需要 等 待 MyISAM 释 放 
一 些 键 缓存 的 空间 。 


另外 ， 除 了 配置 MyISAM 的 索引 WO 还 可 以 配置 MyISAM 怎 样 尝试 

从 损坏 中 恢复 。myisam_recover 选 项 控制 MyISAM 怎 样 寻 找 和 修复 错 

误 。 需 要 在 配置 文件 或 者 命令 行 中 设置 这 个 选项 。 可 以 通过 下 面 的 

SQL 语 句 查 看 选项 的 值 ， 但 是 不 能 修改 (这 不 是 个 印刷 错误 一 一 系统 
变量 名 跟 命令 的 变量 名 有 差异 ) : 


mysql> SHOW VARIABLES LIKE 'myisam_recover_options'; 


打开 这 个 选项 通知 MySQL 在 表 打 开 时 ， 检 查 是 否 损坏 ， 并 且 在 找 
到 问题 的 时 候 进行 修复 。 可 以 设置 的 值 如 下 : 


DEFAULT (或 者 不 设置 ) 


使 MySQL 党 试 修复 任何 被 标记 为 朋 溃 或 者 没有 标记 为 完全 关 
闭 的 表 。 默 认 值 不 要 求 在 恢复 时 执行 其 他 动作 。 跟 大 多 数 变量 不 
同 ， 这 里 DEFAULT 值 不 是 重 置 变量 的 值 为 编译 值 ; 它 本 质 上 意味 
着 “没有 设置 ”。 


BACKUP 


让 MySQL 将 数据 文件 的 备份 写 到 .BAK 文 件 ， 以 便 随 后 进行 检 


Bo 

FORCE 
即使 .MYD 文 件 中 丢失 的 数据 可 能 超过 一 行 ， 也 让 恢复 继续 。 

QUICK 


除非 有 删除 块 ， 否 则 跳 过 恢复 。 块 中 有 已 经 删除 的 行 也 依然 
会 占用 空间 ， 但 是 可 以 被 后 面 的 INSERT 语 句 重 用 。 这 可 能 比较 有 
用 ， 因 为 MyISAM 大 表 的 恢复 可 能 花费 相当 长 的 时 间 。 


可 以 使 用 多 个 设置 ， 用 逗号 分 了 喇 。 例 如 “BACKUPEFORCE” 会 强制 
恢复 并 且 创 建 备 份 。 这 是 为 什么 我 们 在 这 一 章 前 面部 分 的 示例 配置 中 


这 么 用 的 原因 。 


我 们 建议 打开 这 个 选项 ， 尤 其 是 只 有 一 些小 的 MyISAM 表 时 。 服 
务 器 运行 着 一 些 损坏 的 MyI SAM 表 是 很 危险 的 ， 因 为 它们 有 时 可 以 导 
致 更 多 数据 损坏 ， 甚 至 服务 器 月 演 。 然 而 ， 如 果 有 很 大 的 表 ， 原 子 恢 
复 是 不 切实 际 的 : 它 导 致 服务 器 打开 所 有 的 MyI SAM 表 时 都 会 检查 和 
修复 ， 这 是 低 效 的 做 法 。 在 这 段 时 间 ，MySQL 会 阻止 连接 做 任何 工 
作 。 如 果 有 一 大 堆 的 MyISAM 表 ， 上 比较 好 的 主意 还 是 启动 后 用 CHECK 
TABLES 和 REPAIR TABLES 命 令 来 做 民 )， 这 样 对 服务 器 影响 比较 少 。 
不 管 哪 种 方式 ， 检 查 和 修复 表 都 是 很 重要 的 。 


打开 数据 文件 的 内 存 映 射 (MMAP) 访问 是 另 一 个 有 用 的 
MyISAM 选 项 。 内 存 映射 使 得 MyISAM 直 接 通过 操作 系统 的 页 面 缓存 
访问 .MYD 文 件 ， 避 免 系统 调用 的 开销 。 在 MySQL 5.1 和 更 新 的 版 本 
中 ， 可 以 通过 myisam_use_ mmap 选 项 打开 内 人 存 映 射 。 更 老 版 本 的 
MySQL 只 能 对 压缩 的 MyISAM 表 使 用 内 存 映射 。 


8.6 ”配置 MySQL 并 发 


当 MySQL 承 受 高 并 发 压力 时 ， 可 能 会 遇 到 不 曾 遇 到 过 的 瓶颈 。 这 
个 章节 前 述 了 当 这 些 问 题 出 现 的 时 候 ， 怎 样 去 发 现 它们 ， 以 及 在 
MyISAM 和 InnoDB 遇 到 这 样 的 压力 时 怎样 获得 尽 可 能 最 好 的 性 能 。 


8.6.1 InnoDB 并 发 配置 


InnoDB 是 为 高 性 能 设计 的 ， 在 最 近 几 年 它 的 提升 非常 明显 ， 但 依 
然 不 完美 。InnoDB 架 构 在 有 限 的 内 存 、 单 CPU、 单 磁盘 的 系统 中 仍然 
暴露 出 一 些 根 本 性 问题 。 在 高 并 发 场景 下 ， InnoDB 的 某 些 方面 的 性 能 
可 能 会 降低 ， 唯 一 的 办 法 是 限制 并 发 。 可 以 参考 第 3 章 中 使 用 的 技巧 来 
诊断 并 发 问题 。 


如 果 在 InnoDB 并 发 方面 有 问题 ， 解 决 方案 通常 是 升级 服务 器 。 相 
比 当前 的 版 本 ， 像 MySQL 5.0 和 早期 的 MySQL 5.1 这 样 的 旧版 本 ， 在 
高 并 发 下 完全 是 个 悲剧 。 所 有 的 东西 都 在 全 局 Mutex 〈 例 如 ， 缓 冲 池 
Mutex) 上 排队 ， 导 致 服务 器 几乎 陷入 停顿 。 如 果 升 级 到 某 个 更 新 版 
本 的 MySQL ， 在 大 部 分 场景 都 不 再 需要 限制 并 发 。 


如 果 需 要 这 么 做 ， 这 里 会 介绍 它 是 怎么 工作 的 。InnoDB 有 自己 的 
“线程 调度 器 ”控制 线程 怎么 进入 内 核 访问 数据 ， 以 及 它们 在 内 核 中 一 
次 可 以 做 哪些 事 。 最 基本 的 限制 并 发 的 方式 是 使 用 
innodb_thread_concurrency 变 量 ， 它 会 限制 一 次 性 可 以 有 多 少 线程 进入 
内 核 ，0 表 示 不 限制 。 如 果 在 旧 的 MySQL 版 本 里 有 InnoDB 并 发 问题 ， 
这 个 变量 是 最 重要 的 配置 之 一 0。 


在 任何 架构 和 业务 压力 下 ， 给 这 个 变量 设置 个 “ 靠 谱 ”的 值 都 很 重 
要 ， 理 论 上 ， 下 面 的 公式 可 以 给 出 一 个 这 样 的 值 : 
并 发 值 =CPU 数 量 * 磁 盘 数 量 *2 


但 是 在 实践 中 ， 使 用 更 小 的 值 会 更 好 一 点 。 必 须 做 实验 来 找 出 适 
合 系统 的 最 好 的 值 。 


如 果 已 经 进入 内 核 的 线程 超过 了 人 允许 的 数量 ， 新 的 线程 就 无 法 再 
进入 内 核 。InnoDB 使 用 两 段 处 理 来 尝试 让 线程 尽 可 能 高 效 地 进入 内 
核 。 两 段 策略 减少 了 因 操 作 系统 调 度 引 起 的 上 下 文 切换 。 线 程 第 一 次 
休眠 innodb_thread_sleep_delay 微 秒 ， 然 后 再 重 试 。 如 果 它 依然 不 能 进 
入 内 核 ， 则 放 入 一 个 等 待 线 程 队列 ， 让 操作 系统 来 处 理 。 


第 一 阶段 默认 的 休眠 时 间 是 10000 微 秒 。 当 CPU 有 大 量 的 线程 处 在 
“进入 队列 前 的 休眠 ”状态 ， 因 而 没有 被 充分 利用 时 ， 改 变 这 个 值 在 高 
并 发 环境 里 可 能 会 有 帮助 。 如 果 有 大 量 的 小 查询 ， 默 认 值 可 能 也 太 大 
了 ， 因 为 这 增加 了 10 毫 秒 的 查询 延 时 。 


一 旦 线程 进入 内 核 ， 它 会 有 一 定数 量 的 “票据 (Tickets) ”， 可 以 
让 它 “ 免 费 * 返 回 内 核 ， 不 需 再 做 并 发 检查 。 这 限制 了 一 个 线程 回 到 其 
他 等 待 线 程 之 前 可 以 做 多 少 事 。innodb_concurrency_tickets 选 项 控制 票 
据 的 数量 。 它 很 少 需 要 修改 ， 除 非 有 很 多 运行 时 间 极 长 的 查询 。 票 据 
是 按 查 询 授权 的 ， 不 是 按 事务 。 一 旦 查询 完成 ， 它 没 用 完 的 票据 就 销 
毁 了 。 除 了 缓冲 闻 和 其 他 结构 的 瓶颈 ， 还 有 另 一 个 提交 阶段 的 并 发 手 
颈 ， 这 个 时 候 IO 非 常 密 集 ， 因 为 需要 做 刷新 操作 。 
innodb_commit concurrency 变 量 控制 有 多 少 个 线程 可 以 在 同一 时 间 提 
交 。 如 果 innodb_thread_concurrency 配 置 得 很 低 也 有 大 量 的 线程 冲突 ， 
那么 配置 这 个 选项 可 能 会 有 帮助 。 


最 后 ， 有 一 个 新 的 解决 方案 值得 考虑 : 使 用 线程 池 (Thread 
Pool) 来 限制 并 发 。 原 始 的 线程 池 实 现 已 经 随 着 MySQL 6.0 的 代码 树 
一 起 被 废弃 了 ， 并 且 有 严重 缺陷 。 但 是 MariaDB 已 经 重新 实现 了 ， 并 
且 Oracle 最 近 放 出 了 一 个 商业 插件 可 以 为 MySQL 5.5 提 供 线 程 闻 功 能 。 
对 这 些 东 西 我 们 都 没有 足够 的 经 验 来 指导 你 怎么 做 ， 你 也 许 会 更 加 困 
惑 ， 因 为 我 们 会 指出 这 两 种 实现 似乎 都 不 满足 Facebook， 它 在 自己 内 


部 私有 的 MySQL 分 支 中 有 一 个 叫做 * 准 入 控制 ”的 特殊 功能 。 如 果 可 能 
的 话 ， 在 这 本 书 的 第 4 版 我 们 将 分 享 一 些 线程 地 的 知识 ， 以 及 什么 时 候 
它们 可 以 工作 ， 什 么 时 候 不 能 工作 。 


8.6.2 ”MyISAM 并 发 配置 


在 某 些 条 件 下 ，MyISAM 也 人 允许 并 发 插入 和 读 取 ， 这 使 得 可 以 “ 调 
度 ” 某 些 操作 以 尽 可 能 少 地 产生 阻塞 。 


在 讲述 MyISAM 的 并 发 设置 之 前 ， 理 解 MyISAM 是 怎样 删除 和 插 
入 行 的， 是 非常 重要 的 。 删 除 操作 不 会 重新 整理 整个 表 ， 它 们 只 是 把 
行 标记 为 删除 ， 在 表 中 留 下 “空洞 ">。MyISAM 倾 向 于 在 可 能 的 时 候 填 
满 这 些 空洞 ， 在 插入 行 时 重新 利用 这 些 空间 。 如 果 没 有 空洞 了 ， 它 就 
把 新 行 插入 表 的 末尾 。 


尽管 MyISAM 是 表 级 锁 ， 它 依然 可 以 一 边 读 取 ， 一 边 并 发 追加 新 
行 。 这 种 情况 下 只 能 读 取 到 查询 开始 时 的 所 有 数据 ， 新 插入 的 数据 是 
不 可 见 的 。 这 样 可 以 避免 不 一 致 读 。 


然而 ， 若 表 中 间 的 某 些 数据 变动 了 的 话 ， 还 是 难以 提供 一 致 读 。 
MVCC 是 解决 这 个 问题 最 流行 的 方法 : 一 旦 修改 者 创建 了 新 版 本 ， 它 
就 让 读 取 者 读数 据 的 旧版 本 。 可 是 ， MyISAM 并 不 像 InnoDB 那 样 支持 
MVCC， 所 以 除非 插入 操作 在 表 的 末尾 ， 否 则 不 能 支持 并 发 插入 。 


通过 设置 concurrent_insert 这 个 变量 ， 可 以 配置 MyISAM 打 开 并 发 
插入 ， 可 以 配置 为 如 下 值 : 


0 


MyISAM 不 允许 并 发 插入 ， 所 有 插入 都 会 对 表 加 互 斥 锁 。 


这 是 默认 值 。 只 要 表 中 没有 空洞 ，MyISAM 就 允许 并 发 插 
入 。 


这 个 值 在 MySQL 5.0 以 及 更 新 版 本 中 有 效 。 它 强制 并 发 插入 
到 表 的 末尾 ， 即 使 表 中 有 空洞 。 如 果 没 有 线程 从 表 中 读 取 数据 ， 
MySQL 将 把 新 行 放 在 空洞 里 。 使 用 这 个 设置 通常 会 使 表 更 加 碎片 
化 。 


如 果 合 并 操作 可 以 更 加 高 效 ， 也 可 以 配置 MySQL 对 一 些 操作 进行 
延迟 。 举 个 实例 ， 可 以 通过 delay_key_write 变 量 延 迟 写 索引 ， 正 如 这 
一 章 前 面 我 们 提 到 的 。 这 牵涉 到 熟悉 的 权衡 : 立即 写 索 引 (安全 但 是 
昂贵 ) ， 或 者 等 待 但 是 祈求 在 写 发 生前 别 断 电 《更 快 ， 但 是 遇 到 骨 溃 
时 可 能 引起 巨大 的 索引 损坏 ， 因 为 索引 文件 已 经 过 期 了 ) o 


也 可 以 让 INSERT、REPLACE、DELETE、 以 及 UPDATE 语 句 的 优 
先 级 比 SELECT 语 句 更 低 ， 设 置 low_priority_updates 选 项 就 可 以 了 。 这 
相当 于 把 LOW_PRIORITY 修 饰 符 应 用 到 全 局 UPDATE 语 句 。 当 使 用 
MyISAM 时 ， 这 是 个 非常 重要 的 选项 ， 这 让 SELECT 语句 可 以 获得 相 
当 好 的 并 发 度 ， 否 则 一 小 部 分 获取 高 优先 级 写 锁 的 语句 就 可 能 导 和 至 
SELECT 无 法 获取 资产 。 


最 后 ， 尽 管 InnoDB 的 扩展 性 问题 更 经 常 被 提 及 ， 但 是 MyISAM 一 
样 也 有 长 时 间 获 取 Mutex 的 问题 。 在 MySQL 4.0 和 更 早 版 本 里 ， 有 一 个 


全 局 的 Mutex 保 护 所 有 的 键 缓存 /O， 在 多 处 理 器 和 多 磁盘 环境 下 很 容 
易 引 起 扩展 性 问题 。MySQL 4.1 的 键 缓存 代码 做 了 改进 ， 就 不 再 有 这 
些 问题 了 ， 但 是 它 依然 对 每 个 键 缓冲 区 持 有 一 个 Mutex。 当 一 个 线程 
从 键 缓冲 中 复制 键 数据 块 到 本 地 磁盘 时 会 有 竞争 ， 从 磁盘 上 读 取 时 就 
没 这 个 问题 。 磁 盘 瓶 颈 没 了 ， 但 是 当 你 在 键 缓冲 里 访问 数据 时 ， 另 一 
个 瓶颈 出 现 了 。 有 了 时 可 以 围绕 这 个 问题 把 键 缓冲 分 成 多 个 区 ， 但 是 这 
条 路 不 总 是 行 得 通 。 例 如 ， 只 涉及 一 个 独立 索引 的 时 候 ， 这 问题 就 没 
有 办 法 解决 。 于 是 ， 在 多 处 理 器 的 机 器 上 SELECT 查询 并 发 可 能 相对 
单 CPU 的 机 器 显著 下 降 ， 即 使 当时 只 有 这 些 SELECT 查 询 在 执行 。 


MariaDB 提 供 分 开 的 (分 区 的 ) 键 缓冲 ， 如 果 经 常 遇 到 这 个 问 
题 ， 也 许可 以 带 来 帮助 。 


8.7 ”基于 工作 负载 的 配置 


配置 服务 器 的 一 个 目标 是 把 它 定 制 得 符合 特定 的 工作 负载 。 这 需 
要 精通 所 有 类 型 的 服务 器 活动 的 数量 、 类 型 ， 以 及 频率 一 一 不 仅仅 是 
查询 语句 ， 也 包括 其 他 的 活动 ， 例 如 连接 服务 器 以 及 刷新 表 。 


第 一 件 应 该 做 的 事情 是 熟悉 你 的 服务 器 ， 如 果 还 没 做 就 赶紧 。 了 
解 什么 样 的 查询 跑 在 上 面 。 用 例如 innotop 这 样 的 工具 来 监控 它 ， 用 pt- 
query-digest 来 创建 查询 报告 。 这 不 仅 帮 助 你 全 面 地 了 解 服务 器 正在 做 
什么 ， 还 可 以 知道 查询 花费 大 量 时 间 做 了 哪些 事 。 第 3 章 前 明了 怎么 把 
这 些 东西 找 出 来 。 


当 服 务 器 在 满载 情况 下 运行 时 ， 请 尝试 记录 所 有 的 查询 语句 ， 因 
为 这 是 最 好 的 方式 来 查看 哪 种 类 型 的 查询 语句 占用 资源 最 多 。 同 时 ， 


创建 processlist 快 照 ， 通 过 state 或 者 command 字 段 来 聚合 它们 (innotop 
可 以 实现 ， 或 者 可 以 使 用 第 3 章 展示 的 脚本 ) 。 例 如 ， 是 否 大 量 地 在 复 
制 | 数据 到 临时 表 ， 或 者 排序 数据 ? 如 果 有 ， 也 许 需 要 优化 查询 语句 ， 
以 及 查看 临时 表 和 排序 缓冲 配置 项 。 


8.7.1 优化 BLOB 和 TEXT 的 场景 


BLOB 和 TEXT 列 对 MySQL 来 说 是 特殊 类 型 的 场景 (我 们 把 所 有 
BLOB 和 TEXT 都 简单 称 为 BLOB 类 型 ， 因 为 它们 属于 相同 类 型 的 数 
据 ) 。BLOB 值 有 几 个 限制 使 得 服务 器 对 它 的 处 理 跟 其 他 类 型 不 一 
样 。 一 个 最 重要 的 注意 事项 是 ， 服 务 器 不 能 在 内 存 临 时 表 中 存储 
BLOB 值 6， 因此 ， 如 果 一 个 查询 涉及 BLOB 值 ， 又 需要 使 用 临时 表 
一 一 不 管 它 多 小 一 一 它 都 会 立即 在 磁盘 上 创建 临时 表 。 这 样 效率 很 
低 ， 尤 其 是 对 小 而 快 的 查询 。 临 时 表 可 能 是 查询 中 最 大 的 开销 。 


有 两 种 办 法 来 减轻 这 个 不 利 的 情况 : 通过 SUBSTRING(O) 冰 数 (第 
4 章 有 更 多 关于 这 个 孙 数 的 细节 ) 把 值 转换 为 VARCHAR， 或 者 让 临时 
表 更 快 一 些 。 


让 临时 表 运行 更 快 的 最 好 方式 是 ， 把 它们 放 在 基于 内 存 的 文件 系 
统 (GNU/Linux tmpfs) 。 这 会 降低 一 些 开销 ， 尽 管 这 依然 比 内 存 
表 慢 许多 。 因 为 操作 系统 会 避免 把 数据 写 到 磁盘 ， 所 以 内 存 文 件 系 统 
可 以 帮助 提升 性 能 (和 。 一 般 的 文件 系统 也 会 在 内 存 中 缓存 ， 但 是 操作 
系统 会 每 隔 几 秒 就 刷新 一 次 。tmpfs 文 件 系 统 从 来 不 会 刷新 ， 它 就 是 为 
低 开 销 和 简单 起 见 而 设计 的 。 例 如 ， 没 必要 为 这 个 文件 系统 预备 任何 
恢复 方案 。 这 使 得 它 更 快 。 


服务 器 设置 里 控制 临时 表 文 件 放 在 哪 的 是 tmnpdir。 建 议 监控 文件 
系统 使 用 率 以 保证 有 足够 的 空间 存放 临时 表 。 如 果 需 要 ， 可 以 指定 多 
个 临时 表 存 放 位 置 ，MySQL 将 会 轮 询 使 用 。 


如 果 BLOB 列 非常 大 ， 并 且 用 的 是 InnoDB， 也 许可 以 调 大 InnoDB 
日 志 缓冲 大 小 。 在 这 一 章 前 面 有 更 多 关于 这 方面 的 内 容 。 


对 于 很 长 的 变 长 列 (例如 ，BLOB、TEXT， 以 及 长 字符 列 ) ， 
InnoDB 存 储 一 个 768 字 节 的 前 缀 在 行内 人 屏 )。 如 果 列 的 值 比 前 缀 长 ， 
InnoDB 会 在 行 外 分 配 扩 展 存 储 空间 来 存 剩 下 的 部 分 。 它 会 分 配 一 个 完 
整 的 16KB 的 页 ， 像 其 他 所 有 的 InnoDB 页 面 一 样 ， 每 个 列 都 有 自己 的 
Nh (不 同 的 列 不 会 共享 扩展 存储 空间 ) 。InnoDB 一 次 只 为 一 个 列 分 
配 一 个 页 的 扩展 存储 空间 ， 直 到 使 用 了 超过 32 个 页 以 后 ， 就 会 一 次 性 
分 配 64 个 页 面 。 


注意 ， 我 们 说 过 InnoDB 可 能 会 分 配 扩 展 存储 空间 。 如 果 总 的 行 长 

(包括 大 字段 的 完整 长 度 ) 比 InnoDB 的 最 大 行 长 限制 要 短 ( 比 8KB 小 \ 

一 些 ) ，InnoDB 将 不 会 分 配 扩 展 存储 空间 ， 即 使 大 字段 (Long 
column) 的 长 度 超过 了 前 缀 长 度 。 


最 后 ， 当 InnoDB 更 新 存储 在 扩展 存储 空间 中 的 大 字段 时 ， 将 不 会 
在 原来 的 位 置 更 新 。 而 是 会 在 扩展 存储 空间 中 写 一 个 新 值 到 一 个 新 的 
位 置 ， 并 且 不 会 删除 旧 的 值 。 


所 有 这 一 切 都 有 以 下 后 果 : 


。 大 字段 在 InnoDB 里 可 能 浪费 大 量 空间 。 例 如 ， 若 存储 字段 值 只 是 
比 行 的 要 求 多 了 一 个 字 节 ， 也 会 使 用 整个 页 面 来 存储 剩 下 的 字 


节 ， 浪 费 了 页 面 的 大 部 分 空间 。 同 样 的 ， 如 果 有 一 个 值 只 是 稍微 
超过 了 32 个 页 的 大 小 ， 实 际 上 就 需要 使 用 96 个 页 面 。 

扩展 存储 茶 用 了 自 适 应 哈 希 ， 因 为 需要 完整 地 比较 列 的 整个 长 
度 ， 才 能 发 现 是 不 是 正确 的 数据 〈 哈 希 帮 助 InnoDB 非 常 快速 地 找 
到 “猜测 的 位 置 "， 但 是 必须 检查 “猜测 的 位 置 " 是 不 是 正确 ) o 
为 自 适 应 哈 希 是 完全 的 内 存 结构 ， 并 且 直 接 指向 Buffer Pool 中 访 
问 “ 最 ”频繁 的 页 面 ， 但 对 于 扩展 存储 空间 却 无 法 使 用 自 适 应 哈 
希 。 

太 长 的 值 可 能 使 得 在 查询 中 作为 WHERE 条 件 不 能 使 用 索引 ， 
而 执行 很 慢 。 在 应 用 WHERE 条 件 之 前 ，MySQL 需 要 把 所 有 的 列 
读 出 来 ， 所 以 可 能 导致 MySQL 要 求 InnoDB 读 取 很 多 扩展 存储 ， 然 
后 检查 WHERE 条 件 ， 丢 弃 所 有 不 需要 的 数据 。 查 询 不 需要 的 列 
绝 不 是 好 主意 ， 在 这 种 特殊 的 场景 下 尤其 需要 避免 这 样 做 。 如 果 
发 现 查询 正 遇 到 这 个 限制 带 来 的 问题 ， 可 以 尝试 通过 覆盖 索引 来 
解决 部 分 问题 。 

如 果 一 张 表 里 有 很 多 大 字段 ， 最 好 是 把 它们 组 合 起 来 单独 存 到 一 
个 列 里 面 ， 比 如 说 用 XML 文档 格式 存储 。 这 让 所 有 的 大 字段 共享 
一 个 扩展 存储 空间 ， 这 上 比 每 个 字段 用 自己 的 页 要 好 。 

有 时 候 可 以 把 大 字段 用 COMPRESSO 压 缩 后 再 存 为 BLOB ， 或 者 
在 发 送 到 MySQL 前 在 应 用 程序 中 进行 压缩 ， 这 可 以 获得 显著 的 空 
间 优 势 和 性 能 收益 。 


8.7.2 ”优化 排序 (Filesorts) 


从 第 6 章 我 们 知道 MySQL 有 两 种 排序 算法 。 如 果 查 询 中 所 有 需要 
的 列 和 ORDER BY 的 列 总 大 小 超过 max_length_for_sort_data 字 节 ， 则 


采用 two-pass 算 法 。 或 者 当 任何 需要 的 列 一 一 即使 没有 被 ORDER BY 
使 用 的 列 一 一 是 BLOB 或 者 TEXT， 也 会 采用 这 个 算法 。 (可 以 用 
SUBSTRING() 把 这 些 列 转 换 一 下 ， 就 可 以 用 single-pass 算 法 了 。) 


MySQL 有 两 个 变量 可 以 控制 排序 怎样 执行 。 通 过 修改 
max_length_for_sort_data 变 量 (29 的 值 ， 可 以 影响 MySQL 选 择 哪 种 排序 
算法 。 因 为 single-pass 算 法 为 每 行 需要 排序 的 数据 创建 一 个 固定 大 小 的 
缓冲 ， 对 于 VARCHAR 列 ， 在 和 max_length_for_sort_data 比 较 时 ， 使 用 
的 是 其 定义 的 最 大 长 度 ， 而 不 是 所 存储 数据 的 实际 长 度 。 这 也 是 为 什 
么 我 们 建议 只 选择 必要 的 列 的 一 个 原因 。 


当 MySQL 必 须 排 序 BLOB 或 TEXT 字段 时 ， 它 只 会 使 用 前 缀 ， 然 后 
忽略 剩 下 部 分 的 值 。 这 是 因为 缓冲 只 能 分 配 固定 大 小 的 结构 体 来 保存 
要 排序 的 值 ， 然 后 从 扩展 存储 空间 中 复制 前 缀 到 这 个 结构 体 中 。 使 用 
max_sort_length 变 量 可 以 指定 这 个 前 缀 有 多 大 。 


可 惜 ，MySQL 无 法 查看 它 用 了 哪个 算法 。 如 果 增 加 了 
max_length_for_sort_data 变 量 的 值 ， 磁 盘 使 用 率 上 升 了 ，CPU 使 用 率 下 
降 了 ， 并 且 Sort_merge_passes 状 态 变量 相对 于 修改 之 前 开始 很 快 地 上 
升 ， 也 许 是 强制 让 很 多 的 排序 使 用 了 single-pass 算 法 。 


8.8 ”完成 基本 配置 


我 们 已 经 完成 了 服务 器 内 核 的 旅程 一 一 希望 你 喜欢 这 个 旅程 ! 现 
在 让 我 们 回 到 示例 配置 ， 并 且 看 下 怎样 修改 剩 下 的 配置 。 


我 们 已 经 讨论 了 怎样 设置 一 般 的 选项 ， 例 如 数据 目录 、InnoDB 和 
MyISAM 缓 存 、 日 志 ， 还 有 其 他 的 一 些 。 让 我 们 重 温 剩 下 的 那些 : 


tmp_table_size 和 max_heap_table_size 


这 两 个 设置 控制 使 用 Memory 引 擎 的 内 存 临 时 表 能 使 用 多 大 的 
内 存 。 如 果 隐 式 内 存 临 时 表 的 大 小 超过 这 两 个 设置 的 值 ， 将 会 被 
转换 为 磁盘 MyISAM 表 ， 所 以 它 的 大 小 可 以 继续 增长 。 〈 隐 式 临 
时 表 是 一 种 并 非 由 自己 创建 ， 而 是 服务 器 创建 ， 用 于 保存 执行 中 
的 查询 的 中 间 结 果 的 表 。) 


应 该 简单 地 把 这 两 个 变量 设 为 同样 的 值 。 我 们 的 示例 配置 文 
件 中 选择 了 32M。 这 可 能 不 够 ， 但 是 要 谨防 这 个 变量 太 大 了 。 临 
时 表 最 好 呆 在 内 存 里 ， 但 是 如 果 它 们 被 撑 得 很 大 ， 实 际 上 还 是 让 
它们 使 用 磁盘 比较 好 ， 否 则 可 能 会 让 服务 器 内 存 溢 出 。 


假设 查询 语句 没有 创建 庞大 的 临时 表 (通常 可 以 通过 合理 的 
索引 和 查询 设计 来 避免 ) ， 那 把 这 些 变量 设 大 一 点 ， 免 得 需要 把 
内 存 临 时 表 转 换 为 磁盘 临时 表 。 这 个 过 程 可 以 在 SHOW 
PROCESSLIST 中 看 到 。 


可 以 查看 服务 器 的 SHOW STATUS 计数 器 在 某 段 时 间 内 的 变 
化 ， 以 此 来 查看 创建 临时 表 的 频率 以 及 是 否 是 磁盘 临时 表 。 你 不 
能 判断 一 张 ( 临 时) 表 是 先 创 建 为 内 存 表 然 后 被 转换 为 了 磁盘 
表 ， 还 是 一 开始 就 创建 的 磁盘 表 (可 能 因为 有 BLOB 字 上段) ， 但 
是 至 少 可 以 看 到 创建 磁盘 临时 表 有 多 频繁 。 仔 细 检 查 
Created_tmp_disk_tables 和 Created_tmp_tables 变 量 。 


max_connections 


这 个 设置 的 作用 就 像 一 个 紧急 刹车 ， 以 保证 服务 器 不 会 因应 
用 程序 激增 的 连接 而 不 堪 重 负 。 如 果 应 用 程序 有 问题 ， 或 者 服务 
器 遇 到 如 连接 延迟 的 问题 ， 会 创建 很 多 新 连接 。 但 是 如 果 不 能 执 
行 查询 ， 那 打开 一 个 连接 疫 有 好 处 ， 所 以 被 “ 太 多 的 连接 ”的 错误 
拒绝 是 一 种 快速 而 代价 小 的 失败 方式 。 


把 max_connections 设 置 得 足够 高 ， 以 容纳 正常 可 能 达到 的 负 
载 ， 并 且 要 足够 安全 ， 能 保证 允许 你 登录 和 管理 服务 器 。 例 如 ， 
若 认 为 正常 情况 将 有 300 或 者 更 多 连接 ， 则 可 以 设置 为 500 或 者 更 
多 。 如 果 不 知 道 将 会 有 多 少 连 接 ，500 也 不 是 一 个 不 合理 的 起 点 。 
默认 值 是 100， 对 大 部 分 应 用 来 说 这 都 不 够 。 


要 时 时 小 心 可 能 遇 到 连接 限制 的 突然 袭击 。 例 如 ， 若 重新 启 
动 应 用 服务 器 ， 可 能 没有 把 它 的 连接 关闭 干净 ， 同 时 MySQL 可 能 
没有 意识 到 它们 已 经 被 关闭 了 。 当 应 用 服务 器 重新 开始 运转 ， 并 
试图 打开 到 数据 库 的 连接 ， 就 可 能 由 于 挂 起 的 连接 还 没有 超时 ， 
而 使 新 连接 被 拒绝 。 


观察 Max_used_connections 状 态 变量 随 着 时 间 的 变化 。 这 个 是 
高 水 位 标记 ， 可 以 告诉 你 服务 器 连接 是 不 是 在 某 个 时 间 点 有 个 尖 
峰 。 如 果 这 个 值 达 到 了 max_connections， 说 明 客 户 端 至 少 被 拒绝 
了 一 次 ， 并 且 当 它 重 现 的 时 候 ， 应 该 使 用 第 3 章 中 的 技巧 来 抓 取 服 
务 器 的 活动 状态 。 


thread cache size 


设置 这 个 变量 ， 可 以 通过 观察 服务 器 一 段 时 间 的 活动 ， 来 计 
算 一 个 有 理 有 据 的 值 。 观 察 Threads_connected 状 态 变 量 并 且 找 到 


它 在 一 般 情况 下 的 最 大 值 和 最 小 值 。 你 也 许 希望 把 线程 缓存 设置 
得 足够 大 ， 以 在 高 峰 和 低谷 时 都 足够 ， 甚 至 可 能 更 大 方 一 些 ， 因 
为 束 算 设置 得 有 点 太 大 了 ， 一 般 也 不 是 大 问题 。 你 也 许可 以 设置 
为 波动 范围 两 到 三 倍 的 大 小 。 例 如 ， 若 Threads_connected 状 态 从 
150 变 化 到 175， 可 以 设置 线程 缓存 为 75。 但 是 也 不 用 设置 得 非常 
大 ， 因 为 保持 大 量 等 待 连接 的 空间 线程 并 没有 什么 真正 的 用 处 。 
250 的 上 限 是 个 不 错 的 估算 值 (或 者 256， 如 果 你 喜欢 2 的 次 方 。) 
也 可 以 观察 Threads_created 状 态 随 着 时 间 的 变化 。 如 果 这 个 值 很 
大 或 者 一 直 增 长 ， 这 是 另 一 个 线索 ， 告 诉 你 可 能 需要 调 大 
thread_cache_size 变 量 。 查 看 Threads_cached 来 看 有 多 少 线程 已 经 


在 缓 仔 中 了 。 


一 个 相关 的 状态 变量 是 Slow_launch_threads。 这 个 状态 如 果 
是 个 很 大 的 值 ， 那 么 意味 着 某 些 情况 延迟 了 连接 分 配 新 线程 。 这 
也 是 个 线索 ， 可 能 服务 器 有 些 问题 了 ， 但 是 不 能 明确 地 指出 是 哪 
出 问题 了 。 一 般 来 说 ， 可 能 是 系统 过 载 了 ， 导 致 操作 系统 不 能 大 
新 创建 的 线程 调度 CPU。 这 不 是 说 你 就 需要 增加 线程 缓存 的 大 小 
了 。 你 应 该 诊断 这 个 问题 并 且 修 复 它 ， 而 不 是 用 缓存 来 掩盖 问 
题 ， 因 为 这 还 可 能 导致 其 他 问题 。 


table_cache_size 


这 个 缓存 (或 者 在 MySQL 5.1 中 被 分 成 两 个 缓存 区 ) 应 该 被 
设置 得 足够 大 ， 以 避免 总 是 需要 重新 打开 和 重新 解析 表 的 定义 。 
你 可 以 通过 观察 Open_tables 的 值 及 其 在 一 段 时 间 的 变化 来 检查 该 
变量 。 如 果 你 看 到 Opened_tables 每 秒 变化 很 大 ， 那 么 table_cache 


值 可 能 不 够 大 。 隐 式 临 时 表 也 可 能 导致 打开 表 的 数量 不 断 增长 ， 
即使 表 缓存 并 没有 用 满 ， 所 以 这 可 能 也 没什么 问题 。 


该 问题 的 线索 应 该 是 Opened tables 不 断 地 增长 ， 即 使 
Open_tables 并 不 跟 table_cache_size 一 样 大 。 


虽然 表 缓 存 很 有 用 ， 也 不 应 该 把 这 个 变量 设置 得 太 大 。 表 缓 
存 可 能 在 两 种 情况 下 适得其反 。 


首先 ，MySQL 没 有 一 个 很 有 效 的 方法 来 检查 缓存 ， 所 以 如 果真 的 
太 大 了 ， 可 能 效率 会 下 降 。 在 大 部 分 情况 下 ， 不 应 该 把 它 设 置 得 大 于 
10000， 或 者 是 10 240， 如 果 喜 欢 使 用 2 的 N 次 方 的话 。() 


第 二 个 原因 是 有 些 类 型 的 工作 负载 是 不 能 缓存 的 。 如 果 工 作 负 载 
不 是 可 缓存 的 ， 不 管 把 缓存 设置 得 多 大 ， 任 何 访问 都 无 法 在 缓存 命 
H, SAFE, WCRE! 这 可 以 避免 情况 变 得 更 糟糕 ， 缓 存 不 
命中 比 昂贵 的 缓存 检查 后 再 不 命中 还 是 要 好 的 。 什 么 类 型 的 工作 负载 
不 是 可 缓存 的 ? 如 果 有 几 万 或 几 十 万 张 表 ， 并 且 它 们 都 很 均匀 地 被 使 
用 ， 就 不 可 能 把 它们 全 缓存 了 ， 最 好 把 这 个 变量 设 得 小 一 点 。 当 系统 
上 有 数量 非常 多 的 并 行 应 用 而 其 中 没有 一 个 是 非 党 忙 碌 的 ， 有 时 候 这 
是 适当 的 。 


这 个 值 从 max_connections 的 10 倍 开始 设置 是 比较 有 道理 的 ， 但 是 
再 次 说 明 ， 在 大 部 分 场景 下 最 好 保持 在 10000 以 下 甚至 更 低 。 


还 有 其 他 一 些 类 型 的 设置 可 能 经 单 会 包含 在 配置 文件 中 ， 包 括 二 
进 制 日 志 以 及 复制 设置 。 二 进 制 日 志 对 恢复 到 某 个 时 间 点 ， 以 及 复制 
是 非常 有 用 的 ， 另 外 复制 还 有 一 些 它 自 己 的 设置 。 我 们 会 在 本 书后 面 
的 章节 中 覆盖 复制 和 备份 的 重要 设置 。 


89 ”安全 和 稳定 的 设置 


基本 配置 设置 到 位 后 ， 可 能 希望 启用 一 些 使 服务 器 更 安全 和 更 可 
靠 的 设置 。 它 们 中 的 一 些 会 影响 性 能 ， 因 为 保证 安全 性 和 可 靠 性 往往 
要 付出 一 些 人 代价。 有些 人 意识 到 了 : 他 们 能 阻止 加 压 的 错误 发 生 ， 比 
如 把 无 意义 的 数据 插入 服务 器 ， 以 及 一 些 变动 在 日 常 操作 中 没有 哈 区 
别 ， 只 是 在 很 边缘 的 情况 防止 糟糕 的 事情 发 生 。 


让 我 们 首先 来 看 看 收集 的 一 些 对 一 般 服 务 器 都 有 用 的 配置 项 :; 
expire_logs_days 


如 果 启 用 了 二 进 制 日 志 ， 应 该 打开 这 个 选项 ， 可 以 让 服务 器 
在 指定 的 天 数 之 后 清理 旧 的 二 进 制 日 志 。 如 果 不 启 用 ， 最 终 服务 
器 的 空间 会 被 耗 尺 ， 导 致 服务 器 卡 住 或 骨 溃 。 我 们 建议 把 这 个 选 
项 设置 得 足够 从 两 个 备份 之 前 恢复 (在 最 近 的 备份 失败 的 情况 
F) 。 即 使 每 天 都 做 备份 ， 还 是 建议 留 下 7~14 天 的 二 进 制 日 志 。 
从 我 们 的 经 验 来 看 ， 当 遇 到 一 些 不 常见 的 问题 时 ， 你 会 感谢 有 这 
一 两 个 星期 的 二 进 制 日 志 。 例 如 重 搭 一 个 备 机 再 次 尝试 赶 上 主 
库 。 应 该 保持 足够 多 的 二 进 制 日 志 ， 遇 到 这 些 情 况 时 可 以 给 自己 
一 些 呼吸 的 空间 。 


max_allowed_packet 


这 个 设置 防止 服务 器 发 送 太 大 的 包 ， 也 会 控制 多 大 的 包 可 以 
被 接收 。 默 认 值 可 能 太 小 了 ， 但 设置 得 太 大 也 可 能 有 和 危险。 如果 
设置 得 太 小 ， 有 时 复制 上 会 出 问题 ， 通 音 表 现 为 备 库 不 能 接收 主 
库 发 过 来 的 复制 数据 。 你 也 许 需要 增加 这 个 设置 到 16MB 或 者 更 


大 。 这 些 文档 里 没有 ， 但 这 个 选项 也 控制 在 一 个 用 户 定 义 的 变量 
的 最 大 值 ， 所 以 如 果 需 要 非常 大 的 变量 ， 要 小 心 一 一 如 果 超 过 这 
个 变量 的 大 小 ， 它 们 可 能 被 截断 或 者 设置 为 NULL。 


max_connect_errors 


如 果 有 时 网 络 短暂 抽风 了 ， 或 者 应 用 配置 出 现 错误 ， 或 者 有 
另外 的 问题 ， 如 权限 ， 在 短暂 的 时 间 内 不 断 地 尝试 连接 ， 客 户 端 
可 能 被 列 入 黑 名 单 ， 然 后 将 无 法 连接 ， 直 到 再 次 刷新 主机 缓存 。 
这 个 选项 的 默认 设置 太 小 了 ， 很 容易 导致 问题 。 你 也 许 希 望 增加 
这 个 值 ， 实 际 上 ， 如 果 知 道 服务 器 可 以 充分 抵御 蛮 力 攻击 ， 可 以 
把 这 个 值 设 得 非常 大 ， 以 有 效 地 禁用 主机 黑 名 单 。 


skip_name_resolve 


这 个 选项 荣 用 了 另 一 个 网 络 相关 和 鉴 权 认证 相关 的 陷阱 : 
DNS 查 找 。DNS 是 MySQL 连 接 过 程 中 的 一 个 薄弱 环节 。 当 连接 服 
务 器 时 ， 默 认 情况 下 ， 它 试图 确定 连接 和 使 用 的 主机 的 主机 名 ， 
作为 身份 验证 凭据 的 一 部 分 。 (就 是 说 ， 你 的 凭据 是 用 户 名 ， 主 
机 名 、 以 及 密码 一 一 并 不 只 是 用 户 名 和 密码 ) 但 是 验证 主机 来 
关 ， 服 务 器 需要 执行 DNS 的 正 向 和 反 向 查找 。 要 是 DNS 有 问题 就 
玉 剧 了 ， 在 某 些 时 间 点 这 是 必然 的 事 。 当 发 生 这 样 的 情况 时 ， 所 
有 事 都 会 堆积 起 来 ， 最 终 导致 连接 超时 。 为 了 避免 这 种 情况 ， 我 
们 强烈 建议 设置 这 个 选项 ， 在 验证 时 关闭 DNS 查找 。 然 而 ， 如 果 
这 么 做 ， 需 要 把 基于 主机 名 的 授权 改 为 用 IP 地 址 、 通 配 答 ， 或 者 
特定 主机 名 “localhost”"， 因 为 基于 主机 名 的 账号 会 被 禁用 。 


sql_mode 


这 个 设置 可 以 接受 多 种 多 样 的 值 来 改变 服务 器 行为 。 我 们 不 
建议 只 是 为 了 好 玩 而 改变 这 个 值 ， 最 好 在 大 多 数 情况 下 让 MySQL 
像 MySQL， 不 要 尝试 让 它 的 行为 像 其 他 数据 库 服务 器 。 (许多 客 
户 端 和 图 形 界面 工具 ， 除 了 MySQL 还 有 它们 自己 的 SQL 方言 ， 例 
如 ， 若 修改 它 用 更 符合 ANSI 的 SQL ， 有 些 操作 会 没 法 做 。) 然 
而 ， 有 些 选 项 值 是 很 有 用 的 ， 有 些 在 具体 情况 可 能 是 值得 考虑 
的 。 建 议 查看 文档 中 下 面 这 些 选 项 ， 并 且 考 虑 使 用 它们 : 
STRICT_TRANS_TABLES 、 
ERROR_FOR_DIVISION_BY_ZERO 
NO_AUTO_CREATE_USER 、 NO_AUTO_VALUE_ON_ZERO 、 
NO_ENGINE_SUBSTITUTION 、 NO_ZERO_DATE 、 
NO_ZERO_IN_DATE#ONLY_FULL_GROUP_BYo 


然而 ， 要 意识 到 对 已 经 存在 的 应 用 修改 这 些 设置 值 可 不 是 个 
好 主意 ， 因 为 这 么 做 可 能 让 服务 器 跟 应 用 预期 不 兼容 。 人 们 不 经 
意 间 写 的 查询 中 应 用 的 列 不 在 GROUP BYP, REER SA 
数 ， 这 种 情况 非常 常见 ， 例 如 ， 若 想 打 开 
ONLY_FULL_GROUP_BY 选 项 ， 最 好 首先 在 开发 或 未 上 线 服务 器 
上 做 一 下 测试 ， 一 旦 要 在 生产 环境 部 署 则 必须 确认 所 有 地 方 都 可 
以 工作 。 


sysdate_is_now 


这 是 另 一 个 可 能 导致 与 应 用 预期 向 后 不 兼容 的 选项 。 但 如 果 
不 是 明确 需要 SYSDATE() 遂 数 的 非 确 定性 行为 ( 非 确 定性 行为 可 
能 会 导致 复制 中 断 或 者 使 得 基于 时 间 点 的 备份 恢复 结果 不 可 


信 ) ， 那 么 你 可 能 希望 打开 该 选项 以 确保 SYSDATEO 阔 数 有 确定 
的 行为 。 


下 面 的 选项 可 以 控制 复制 行为 ,并且 对 防止 备 库 出 问题 非常 有 帮 
助 : 


read_only 


这 个 选项 禁止 没有 特权 的 用 户 在 备 库 做 变更 ， 只 接受 从 主 库 
传输 过 来 的 变更 ， 不 接受 从 应 用 来 的 变更 。 我 们 强烈 建议 把 备 库 
设置 为 只 读 模式 。 


skip_slave_start 


这 个 选项 阻止 MySQL 试 图 自动 启动 复制 。 因 为 在 不 安全 的 月 
溃 或 其 他 问题 后 ， 启 动 复制 是 不 安全 的 ， 所 以 需要 茶 用 自动 启 
动 ， 用 户 需 要 手动 检查 服务 器 ， 并 确定 它 是 安全 的 之 后 再 开始 复 
制 |。 


slave_net_timeout 


这 个 选项 控制 备 库 发 现 跟 主 库 的 连接 已 经 失败 并 且 需 要 重 连 
之 前 等 待 的 时 间 。 默 认 值 是 一 个 小 时 ， 太 长 了 。 设 置 为 一 分 钟 或 
更 短 。 


sync_master_info, sync_relay_log, sync_relay_log info 


这 些 选项 ， 在 MYSQL 5.5 以 及 更 新 版 本 中 可 用 ， 解 决 了 复制 
中 备 库 长 期 存在 的 问题 : 不 把 它们 的 状态 文件 同步 到 磁盘 ， 所 以 


服务 器 骨 溃 后 可 能 需要 人 来 猜测 复制 的 位 置 实际 上 在 主 库 是 哪个 
位 置 ， 并 且 可 能 在 中 继 日 志 (Relay Log) 里 有 损坏 。 这 些 选 项 使 
得 备 库 骨 溃 后 ， 更 容易 从 骨 溃 中 恢复 。 这 些 选项 默认 是 不 打开 
的 ， 因 为 它们 会 导致 备 库 额外 的 fsync() 操 作 ， 可 能 会 降低 性 能 。 
如 果 有 很 好 的 硬件 ， 我 们 建议 打开 这 些 选项 ， 如 果 复 制 中 出 现 
fsync() 造 成 的 延 时 间 题 ， 就 应 该 关闭 它们 。 


Percona Server 中 有 一 种 侵入 性 更 小 的 方式 来 做 这 些 工 作 ， 即 
打开 innodb_overwrite_relay_log_info 选 项 。 这 可 以 让 InnoDB 在 事 
务 日 志 中 存储 复制 的 位 置 ， 这 是 完全 事务 化 的 ， 并 且 不 需要 任何 
额外 的 fsyncO 操 作 。 在 朋 冲 恢复 期 间 ， InnoDB 会 检查 复制 的 元 信 
息 文件 ， 如 果 文件 过 期 了 就 更 新 为 正确 的 位 置 。 


8.10 ”高 级 InnoDB 设 置 


到 第 1 章 我 们 讨论 的 InnoDB 历 史 : 首先 是 内 建 (built-in) 的 版 
本 ， 然 后 有 了 两 个 有 效 版 本 ， 现 在 更 新 的 版 本 再 次 变 成 了 一 个 。 更 新 
的 InnoDB 代 码 有 更 多 的 功能 和 非常 好 的 扩展 性 。 如 果 正 在 使 用 MySQL 
5.1， 应 该 明确 地 配置 MySQL 忽 略 旧 版 本 的 InnoDB 而 使 用 新 版 的 。 这 
将 极 大 地 提升 服务 器 性 能 。 需 要 打开 ignore_builtin_innodb 选 项 ， 然 后 
配置 plugin load 选项 把 InnoDB 作 为 插件 打开 。 建 议 参 考 InnoDB 文 档 中 
对 应 平台 上 的 扩展 语法 (26)。 


对 于 新 版 本 的 InnoDB， 有 一 些 新 的 选项 可 以 用 。 如 果 启 用 ， 它 们 
中 有 些 对 服务 器 性 能 相当 重要 ， 也 有 一 些 安全 性 和 稳定 性 的 选项 ， 如 
下 所 示 。 


innodb 


这 个 看 似 平淡 无 奇 的 选项 实际 上 非常 重要 ， 如 果 把 这 个 值 设 
置 为 FORCE， 只 有 在 InnoDB 可 以 启动 时 ， 服 务 器 才 会 启动 。 如 果 
使 用 InnoDB 作 为 默认 存储 引擎 ， 这 一 定 是 你 期 望 的 结果 。 你 应 该 
不 会 希望 在 InnoDB 失 败 (例如 因为 错误 的 配置 而 导致 的 不 可 启 
动 ) 的 情况 下 启动 服务 器 ， 因 为 写 的 不 好 的 应 用 可 能 之 后 会 连接 
到 服务 器 ， 导 致 一 些 无 法 预知 的 损失 和 混乱 。 最 好 是 整个 服务 器 
都 失败 ， 强 制 你 必须 查看 错误 日 志 ， 而 不 是 以 为 服务 器 正常 启动 
Ta 


innodb_autoinc_lock_mode 


这 个 选项 控制 InnoDB 如 何 生成 自 增 主键 值 ， 某 些 情况 下 ， 例 
如 高 并 发 插入 时 ， 自 增 主 键 可 能 是 个 瓶颈 。 如 果 有 很 多 事务 等 待 
自 增 锁 (可 以 在 SHOW ENGINE INNODB STATUS 里 看 到 ) ， 应 
该 审视 这 个 变量 的 设置 。 手 册 上 已 经 详细 解释 了 该 选项 的 行为 ， 
在 此 我 们 就 不 再 重复 了 。 


innodb_buffer_pool_instances 


这 个 选项 在 MySQL 5.5 和 更 新 的 版 本 中 出 现 ， 可 以 把 缓冲 池 
切 分 为 多 段 ， 这 可 能 是 在 高 负载 的 多 核 机 器 上 提升 MySQL 可 扩展 
性 最 重要 的 一 个 方式 了 。 多 个 缓冲 池 分 散 了 工作 压力 ， 所 以 一 些 
全 局 Mutex 竞 争 就 没有 那么 大 了 。 


目前 尚 不 清楚 什么 情况 下 应 该 选择 多 个 缓冲 池 实 例 。 我 们 运 
行 过 八 个 实例 的 基准 ， 但 是 直到 MySQL 5.5 已 经 广泛 部 署 了 很 长 


一 段 时 间 ， 我 们 依然 不 明白 多 个 缓冲 池 实 例 的 一 些微 妙 之 处 。 


我 们 不 是 暗示 MySQL 5.5 没 有 在 生产 环境 广泛 部 署 。 只 是 对 
我 们 已 经 帮助 解决 过 的 大 部 分 互 斥 锁 相 互 争 用 的 极端 场景 的 用 户 
来 说 ， 升 级 可 能 需要 很 多 个 月 的 时 间 来 计划 、 验 证 ， 并 执行 。 这 
些 用 户 有 时 运行 着 高 度 定制 化 的 MySQL 版 本 ， 使 得 更 加 倍 说 慎 地 
对 待 升 级 。 当 越 来 越 多 的 这 类 用 户 升 级 到 MySQL 5.5， 并 以 他 们 
独特 的 方式 进行 压力 验证 ， 我 们 可 能 会 学 到 关于 多 缓冲 池 的 一 些 
我 们 没 见 过 的 有 趣 的 事情 。 也 许 直到 那 时 ， 我 们 才 可 以 说 运行 八 
个 缓冲 池 实 例 是 非常 有 益 的 。 


值得 注意 的 是 Percona Server 用 了 不 同 的 方法 来 解决 mnoDB 互 
斥 锁 争 用 问题 。 相 对 于 把 缓冲 闻 分 成 多 个 一 一 一 个 在 许多 像 
InnoDB 的 系统 下 经 过 检验 无 可 否认 的 方法 一 一 我 们 选择 把 一 些 全 
局 Mutex 拆 分 为 更 细 、 更 专用 的 Mutex。 我们 的 测试 显示 最 好 的 方 
式 是 结合 这 两 种 方法 ， 在 Percona Server 5.5 版 本 中 已 经 可 用 了 : 
多 缓冲 区 和 更 细 粒 度 的 锁 。 


innodb_io_capacity 


InnoDB 曾 经 在 代码 里 写 死 了 假设 服务 器 运行 在 每 秒 100 个 IO 
操作 的 单 硬盘 上 。 默 认 值 很 糟糕 。 现 在 可 以 告诉 mnoDB 服 务 器 有 
多 大 的 IO 能 力 。InnoDB 有 时 需要 把 这 个 设置 得 相当 高 (在 像 PCI- 
E SSD 这 样 极 快 的 存储 设备 上 需要 设置 为 上 万 ) 才能 稳定 地 刷新 
脏 页 ， 原 因 解 释 起 来 相当 复杂 。 


innodb read io threads 和 innodb write io threads 


这 些 选 项 控制 有 多 少 后 台 线 程 可 以 被 IO 操作 使 用 。 最 近 版 本 
的 MySQL 里 ， 默 认 值 是 4 个 读 线程 和 4 个 写 线程 ， 对 大 部 分 服务 器 
这 都 足够 了 ， 尤 其 是 MySQL 5.5 里 面 可 以 用 操作 系统 原生 的 异步 
IO 以 后 。 如 果 有 很 多 硬盘 并 且 工 作 负载 并 发 很 大 ， 可 以 发 现 这 些 
线程 很 难 跟 上 ， 这 种 情况 下 可 以 增加 线程 数 ， 或 者 可 以 简单 地 把 
这 个 选项 的 值 设 置 为 可 以 提供 IO 能 力 的 磁盘 数量 (即使 后 面 是 一 
个 RAID 控 制 器 ) 。 


innodb _strict mode 


这 个 设置 上 MySQL 在 某 些 条 件 下 把 警告 改 成 抛 错 ， 尤 其 是 无 
效 的 或 者 可 能 有 风险 的 CREATE TABLE 选 项 。 如 果 打 开 这 个 设 
置 ， 就 必然 会 检查 所 有 CREATE TABLE 选 项 ， 因 为 它 不 会 让 你 创 
建 一 些 用 起 来 比较 爽 〈 但 是 有 隐患 ) 的 表 。 有 时 这 有 点 悲观 ， 过 
于 严格 了 。 当 尝试 恢复 备份 时 可 能 就 不 希望 打开 这 个 选项 了 。 


innodb_old_blocks time 


InnoDB 有 个 两 段 缓冲 闻 LRU (最 近 最 少 使 用 ) 链表 ， 设 计 目 
的 是 防止 换 出 长 期 使 用 很 多 次 的 页 面 。 像 mysqldump 产 生 的 这 种 
一 次 性 的 大) 查询 ， 通 常会 读 取 页 面 到 缓冲 闻 的 LRU 列 表 ， 从 
中 读 取 需要 的 行 ， 然 后 移动 到 下 一 页 。 理 论 上 ， 两 段 LRU 链 表 将 
阻止 此 页 取代 很 长 一 段 时 间 内 都 需要 用 到 的 页 面 被 放 入 “年 轻 
(Young) ” 子 链表 ， 并 且 只 在 它 已 被 浏览 过 多 次 后 将 其 移动 到 “年 
老 (Old) ” 子 链表 。 但 是 InnoDB 默 认 没有 配置 为 防止 这 种 情况 ， 
因为 页 内 有 很 多 行 ， 所 以 从 页 面 读 取 的 行 的 多 次 访问 ， 会 导致 它 
立即 被 转移 到 “年 老 (Old) " 子 链表 ， 对 那些 需要 长 时 间 缓 存 的 页 
面市 来 换 出 的 压力 。 


这 个 变量 指定 一 个 页 面 从 LRU 链 表 的 “年 轻 * 部 分 转移 到 “年 
老 " 部 分 之 前 必须 经 过 的 晓 秒 数 。 默 认 情况 下 它 设 置 为 0， 将 它 设 
AAV 1000S#) (一 秒 ) 这 样 的 小 一 点 的 值 ， 在 我 们 的 基准 测试 
中 已 被 证 明 非 党 有 效 。 


8.11 ”总 结 


在 阅读 完 这 一 章节 之 后 ， 你 应 该 有 了 一 个 比 默认 设置 好 得 多 的 服 
务 器 配置 。 服 务 器 应 该 更 快 更 稳定 了 ， 并 且 除 非 运行 出 现 了 罕见 的 状 
况 ， 都 应 该 没有 必要 再 去 做 优化 配置 的 工作 了 。 


复习 一 下 ， 我 们 建议 从 参考 示例 配置 文件 开始 ， 设 置 符 合 服务 器 
和 工作 负载 的 基本 选项 ， 增 加 安全 性 和 完整 性 所 需 的 选项 ， 并 且 ， 如 
果 合 适 的 话 ， 在 MySQL 5.5 中 配置 新 版 的 InnoDB Plugin 才 有 的 配置 
项 。 这 就 是 关于 优化 服务 器 配置 所 需要 做 的 全 部 的 事情 。 


如 果 使 用 的 是 InnoDB， 最 重要 的 选项 是 下 面 这 两 个 : 


e innodb_buffer_pool_size 


e innodb_log file size 


恭喜 你 一 一 你 解决 了 我 们 见 过 的 真实 存在 的 配置 问题 中 的 绝 大 部 
分 ! 如 果 使 用 我 们 的 在 线 配 置 工具 htip://tools.percona.com， 对 这 些 问 
题 和 其 他 配置 选项 的 使 用 ， 会 得 到 很 好 的 建议 。 


我 们 也 提出 了 很 多 关于 不 要 做 什么 的 建议 。 其 中 最 重要 的 是 不 要 
“ 调 优 ”服务 器 ;不 要 使 用 比率 、 公 式 或 “ 调 优 脚本 ”作为 设置 配置 变量 
的 基础 ， 不 要 信任 来 自 互 联网 上 的 不 明 身 份 的 人 的 意见 ; 不 要 为 了 看 


起 来 很 糟糕 的 事情 去 不 断 地 刷 SHOW STATUS。 如 果 有 些 设 置 其 实 是 
错误 的 ， 在 剖析 服务 器 性 能 时 也 会 展现 出 来 。 


有 几 个 重要 的 设置 没有 在 本 章 讨 论 ， 主 要 是 因为 它们 是 为 特定 类 
型 的 硬件 和 工作 负载 服务 的 。 我 们 暂 不 讨论 这 些 设置 ， 因 为 我 们 相 
信 ， 任 何 关 于 怎样 设置 的 意见 ， 都 需要 与 内 部 流程 的 解释 工作 一 起 来 
做 。 这 给 我 们 带 来 了 下 一 章 ， 它 会 告诉 你 如 何 优化 MySQL 的 硬件 和 操 
作 系 统 ， 反 之 亦 然 。 


(1) 我 们 见 过 的 一 个 常见 的 错误 是 ， 配 置 一 台新 服务 器 的 内 存 是 另 一 台 已 经 存在 的 服务 器 
的 两 倍 ， 并 且 一 一 使 用 旧 服 务 器 的 配置 作为 基线 一 一 创建 一 份 新 的 配置 ， 只 是 简单 地 在 旧 服 
务 器 的 配置 上 乘 以 2。 这 不 起 作用 。 

(2) 如 果 你 还 是 不 相信 * 按 比率 调 优 ” 的 方法 是 错误 的 ， 请 阅读 Cary Millsap 的 Optimizing 
Oracle Performance (O'Reilly 出 版 ) 。 他 甚至 为 这 个 主题 专门 写 了 一 个 附录 ， 提 供 了 一 个 可 以 
智能 地 产生 任何 你 想 要 的 命中 率 的 工具 ， 甚 至 不 管 系统 正 运 行 得 多 么 糟糕 都 可 以 做 到 很 好 的 
命中 率 ! 当然 ， 这 一 切 的 目的 都 是 为 了 说 明 比 率 是 多 么 无 用 。 

(3) 一 个 例外 : 我 们 维护 了 一 个 (好 用 的 ) 免费 的 在 线 配 置 工 具 ， 在 
http:/tools.percona.com。 是 的 ， 我 们 确实 有 倾向 性 。 


(外 问 : GRAY) 查询 是 如 何 形成 的 ? 答 : 这 需要 去 问 那 些 杀 死 了 坏 查 询 的 DBA 是 怎么 回 
事 ， 查 询 本 身 是 不 可 能 回击 的 。 

(5) Percona 当 然 认 为 在 Percona 邮 件 组 能 找到 真正 的 专家 ， 所 以 说 他 们 不 能 中 肯 。 
者 注 

(6) la]: 为 排序 缓存 (Sort Buffer) 和 读 缓 存 (Read Buffer) 设置 大 小 的 选项 在 哪 ? FS: 
它们 已 经 很 专注 自己 的 事情 了 ， 除 非 觉得 默认 值 不 够 好 ， 否 则 保留 默认 值 就 可 以 了 。 


译 


(2) mnoDB 在 5.1/5.5 中 都 不 支持 全 文 索引 ， 直 到 5.6 版 本 InnoDB 才 支持 全 文 索 引 。 译 
者 注 

(8) 例如 Join Buffer/Sort Buffer 等 。 译 者 注 

Q 这 个 功能 是 Dump/Restore of the Buffer Pool ， 详 情 查 看 : 


http:/www.percona.com/doc/percona-server/5.5/management/innodb_lru_dump_restore.html > 


译 者 注 


(10) 当然 还 要 排除 各 种 操作 系统 自身 占用 的 内 存 ， 还 有 MySQL 自 身 占用 的 内 存 等 。 
译 者 注 

(11) 理论 上 ， 如 果 能 确认 原生 4KB 的 数据 依然 在 操作 系统 缓存 中 ， 读 操作 就 不 需要 了 。 
然而 ， 你 没 法 控制 操作 系统 把 哪些 块 放 到 缓存 中 。 通 过 fncore 工 具 可 以 看 到 哪些 块 在 缓存 中 ， 
地 址 在 : http://net.doit.wisc.edu/~plonka/fncore/。 

(12) “打开 的 表 (Opened Table) ”的 概念 ， 可 能 有 点 混乱 。 当 不 同 的 查询 同时 访问 一 张 
K, 或 者 是 一 个 单独 的 查询 引用 同一 张 表 超过 一 次 ， 比 如 子 查询 或 者 自 关 联 ，MySQL 都 会 对 
一 张 表 作为 打开 状态 多 次 计数 。MyISAM 表 的 索引 文件 包含 一 个 计数 器 ，MyISAM 表 打开 时 
递增 ， 关 闭 时 递减 。 这 使 得 对 于 MyISAM 表 可 以 看 到 是 不 是 关闭 干净 了 : 如 果 首 次 打开 一 个 
表 ， 计 数 器 不 为 零 ， 说 明 表 没有 关闭 干净 。 

(13) 对 于 好 奇 的 人 ，Percona Server 的 innodb_recovery_stats 选 项 可 以 帮助 你 从 执行 朋 溃 恢 
复 的 立场 来 理解 服务 器 的 工作 负载 。 

(14) 我 们 说 的 是 基于 旋转 盘 片 的 机 械 磁盘 ， 不 是 SSD 盘 ， 它 们 的 性 能 特点 完全 不 一 样 。 

(15) RAID 卡 的 预 读 控 制 必须 在 RAID 卡 的 设置 中 调整 。 译 者 注 

(16) 就 是 写 入 会 在 RAID 卡 缓存 上 进行 缓冲 ， 不 直接 写 到 硬盘 。 译 者 注 

(17) 请 注意 ， 这 种 实现 思路 是 一 个 存在 很 多 争议 的 话题 ， 请 看 MySQL 的 bug 60776 来 获得 
更 多 细节 信息 。 

(18) 表 可 能 因为 多 种 原因 被 和 关闭 。 例 如 ， 服 务 器 因为 表 缓 存 没 有 空间 了 就 会 天 闭 表 ， 或 
者 有 人 执行 了 FLUSH TABLES。 

(19) 一 些 Debian 系 统 会 自动 做 这 些 事 ， 像 一 个 钟 摆 的 摆动 ， 朝 着 不 同 的 方向 不 停 地 揪 
摆 。 只 是 把 这 个 行为 配置 为 Debian 默 认 做 的 事 不 是 一 个 好 主意 ， 应 该 由 DBA 来 决定 。 

(20) 事实 上 ， 在 某 些 工作 负载 下 ， 并 发 限制 实现 可 能 自己 就 成 为 了 系统 的 瓶颈 ， 所 以 有 
时 它 需要 打开 ， 但 另 一 些 时 候 它 需要 关闭 。 性 能 分 析 会 告诉 你 该 怎么 做 。 

(21) 最 近 版 本 的 Percona Server 对 某 些 场景 消除 了 这 个 限制 。 

(22) 如 果 操 作 系 统 把 它 交 换 (Swap) 出 内 存 ， 数 据 依然 会 到 磁盘 。 

(23) 这 个 长 度 足够 在 列 上 创建 一 个 255 字 符 的 索引 ， 即 使 是 utf8 的 (每 个 字符 可 能 需要 三 
SET) 。 前 缀 是 InnoDB 的 Antelope 文 件 格 式 特 有 的 ，MySQL 5.1 和 更 新 版 本 中 的 Barracuda 
格式 (默认 不 打开 的 ) 没有 前 缀 。 

(24) 在 带 有 LIMIT 语 句 的 查询 中 ，MySQL 5.6 会 改变 排序 缓冲 的 用 法 ， 并 且 会 修正 一 个 可 
导致 执行 一 个 昂贵 的 安装 历程 而 使 用 庞大 的 排序 缓冲 的 问题 ， 所 以 如 果 升 级 到 了 MySQL 
5.6， 需 要 特别 小 心地 检查 这 些 设置 中 任何 自 定 义 的 设置 。 

(25) 你 听 说 过 一 个 关于 二 进 制 的 笑话 嘛 ? 世界 上 有 10 种 人 : 部 分 是 懂 二 进 制 的 ， 部 分 不 
懂 二 进 制 。 还 有 另外 10 种 人 : 一 些 认为 二 进出 J/ 十进制 的 笑话 有 意思 ， 一 些 是 精 虫 上 脑 。 我 们 
不 会 说 我 们 是 否认 为 这 是 滑稽 的 。 


(26) 在 Percona Server 中 ， 只 有 一 个 版 本 的 InnoDB， 并 且 是 内 建 的 ， 所 以 你 不 需要 禁用 一 
个 版 本 然后 载 入 另 一 个 版 本 替换 它 。 


第 9 章 ”操作 系统 和 硬件 优化 


MySQL 服 务 器 性 能 受制 于 整个 系统 最 薄弱 的 环节 ， 承 载 它 的 操作 
系统 和 硬件 往往 是 限制 因素 。 磁 盘 大 小 、 可 用 内 存 和 CPU 资源 、 网 
络 ， 以 及 所 有 连接 它们 的 组 件 ， 都 会 限制 系统 的 最 终 容量 。 因 此 ， 需 
要 小 心地 选择 硬件 ， 并 对 硬件 和 操作 系统 进行 合适 的 配置 。 例 如 ， 若 
工作 负载 是 IO 密集 型 的 ， 一 种 方法 是 设计 应 用 程序 使 得 最 大 限度 地 减 
少 MySQL 的 IO 操作 。 然 而 ， 更 聪明 的 方式 通常 是 升级 MO 子 系统 ， 安 
装 更 多 的 内 存 ， 或 重新 配置 现 有 的 磁盘 。 


硬件 的 更 新 换代 非常 迅速 ， 所 以 本 章 有 关 特 定 产品 或 组 件 的 内 容 
可 能 将 很 快 变 得 过 时 。 像 往常 一 样 ， 我 们 的 目标 是 帮助 提升 对 这 些 概 
念 的 理解 ， 这 样 对 于 即使 没有 直接 覆盖 到 的 知识 也 可 以 举一反三 。 这 
里 我 们 将 通过 现 有 的 硬件 来 前 明 我 们 的 观点 。 


9.1 什么 限制 了 MySQL 的 性 能 


许多 不 同 的 硬件 都 可 以 影响 MySQL 的 性 能 ， 但 我 们 认为 最 常见 的 
两 个 瓶颈 是 CPU 和 IO 资源 。 当 数据 可 以 放 在 内 存 中 或 者 可 以 从 磁盘 中 
以 足够 快 的 速度 读 取 时 ，CPU 可 能 出 现 瓶 颈 。 把 大 量 的 数据 集 完全 放 
到 大 容量 的 内 存 中 ， 以 现在 的 硬件 条 件 完全 是 可 行 的 人 


另 一 方面 ，IO 瓶 颈 ， 一 般 发 生 在 工作 所 需 的 数据 远 远 超过 有 效 内 
存 容 量 的 时 候 。 如 果 应 用 程序 是 分 布 在 网 络 上 的 ， 或 者 如 果 有 大 量 的 
查询 和 低 延迟 的 要 求 ， 瓶 颈 可 能 转移 到 网 络 上 ， 而 不 再 是 磁盘 IOG。 


第 3 章 中 提 六 的 技巧 可 以 帮助 找到 系统 的 限制 因素 ， 但 即使 你 认为 
已 经 找到 了 瓶颈 ， 也 应 该 透 过 表象 去 看 更 深层 次 的 问题 。 某 一 方面 的 
缺陷 常常 会 将 压力 施加 在 另 一 个 子 系统 ， 导 致 这 个 子 系统 出 问题 。 例 
如 ， 若 没有 足够 的 内 存 ，MySQL 可 能 必须 刷 出 缓存 来 腾 出 空间 给 需要 
的 数据 一 一 然后 ， 过 了 一 小 会 ， 再 读 回 刚 刚 刷新 的 数据 ( 读 取 和 写 入 
操作 都 可 能 发 生 这 个 问题 ) 。 本 来 是 内 存 不 足 ， 却 导致 出 现 了 IO 容量 
不 足 。 当 找到 一 个 限制 系统 性 能 的 因素 时 ， 应 该 问 问 自己 , ERNA 
分 本 身 的 问题 ， 还 是 系统 中 其 他 不 合理 的 压力 转移 到 这 里 所 导致 的 ? ” 
在 第 3 章 的 诊断 案例 中 也 有 讨论 到 这 个 问题 。 


还 有 另外 一 个 例子 : 内 存 总 线 的 瓶颈 也 可 能 表现 为 CPU 问题 。 事 
实 上 ， 我 们 说 一 个 应 用 程序 有 “CPU 瓶颈 ?或 者 是 “<CPU 密 集 型 "”， 真 正 
的 意思 应 该 是 计算 的 瓶颈 。 接 下 来 将 深入 探讨 这 个 问题 。 


9.2 ”如 何 为 MySQL 选 择 CPU 


在 升级 当前 硬件 或 购买 新 的 硬件 时 ， 应 该 考虑 下 工作 负载 是 不 是 
CPU 密集 型 。 

可 以 通过 检查 CPU 利用 率 来 判断 是 否 是 CPU 密集 型 的 工作 负载 ， 
但 是 仅 看 CPU 整体 的 负载 是 不 合理 的 ， 还 需要 看 看 CPU 使 用 率 和 大 多 
数 重 要 的 查询 的 IO 之 间 的 平衡 ， 并 注意 CPU 负载 是 否 分 配 均 匀 。 本 章 
稍 后 讨论 的 工具 可 以 用 来 弄 清楚 是 什么 限制 了 服务 器 的 性 能 。 


9.2.1 ”哪个 更 好 : 更 快 的 CPU 还 是 更 
多 的 CPU 


当 遇 到 CPU 密集 型 的 工作 时 ，MySQL 通 常 可 以 从 更 快 的 CPU 中 获 
m (相对 更 多 的 CPU) 。 


但 这 不 是 绝对 的 ， 因 为 还 依赖 于 负载 情况 和 CPU 数量 。 更 古老 的 
MySQL 版 本 在 多 CPU 上 有 扩展 性 问题 ， 即 使 新 版 本 也 不 能 对 单个 查询 
并 发 利用 多 个 CPU。 因 此 ，CPU 速 度 限 制 了 每 个 CPU 密集 型 查询 的 响 
应 时 间 。 


当 我 们 讨论 CPU 的 时 候 ， 为 保证 本 文 易于 阅读 ， 对 某 些 术语 将 不 
会 做 严格 的 定义 。 现 在 一 般 的 服务 器 通常 都 有 多 个 插 权 (Socket) ， 
每 个 插 模 上 都 可 以 插 一 个 有 多 个 核心 的 CPU (有 独立 的 执行 单元 ) ， 
并 且 每 个 核心 可 能 有 多 个 “人 硬件 线程 "。 这 些 复杂 的 染 构 需要 有 点 耐心 
去 了 解 ， 并 且 我 们 不 会 总 是 明确 地 区 分 它们 。 不 过 ， 在 一 般 情况 下 ， 
当 谈 到 CPU 速度 的 时 候 ， 谈 论 的 其 实 是 执行 单元 的 速度 ， 当 提 到 的 
CPU 数量 时 ， 指 的 通常 是 在 操作 系统 上 看 到 的 数量 ， 尽 管 这 可 能 是 独 
立 的 执行 单元 数量 的 多 倍 3)。 


这 几 年 CPU 在 各 个 方面 都 有 了 很 大 的 提升 。 例 如 ， 今 天 的 Intel 
CPU 速度 远 远 超过 前 几 代 ， 这 得 益 于 像 直接 内 存 连 接 (directly 
attached memory) 技术 以 及 PCIe 卡 之 类 的 设备 互联 上 的 改善 等 。 这 些 
改进 对 于 存储 设备 尤其 有 效 ， 例 如 Fusion-io 和 Virident 的 PCIe 闪 存 驱 动 
Zo 


超 线 程 的 效果 相 比 以 前 也 要 好 得 多 ， 现 在 操作 系统 也 更 了 解 如 何 
更 好 地 使 用 超 线程 。 而 以 前 版 本 的 操作 系统 无 法 识别 两 个 虚拟 处 理 器 
实际 上 是 在 同一 心 片上 ， 认 为 它们 是 独立 的 ， 于 是 会 把 任务 安排 在 两 
个 实际 上 是 相同 物理 执行 单元 上 的 虚拟 处 理 器 。 实 际 上 单个 执行 单元 
并 不 是 真 的 可 以 在 同一 时 间 运 行 两 个 进程 ， 所 以 这 样 做 会 发 生 冲 突 和 


争夺 资源 。 而 同时 其 他 CPU 却 可 能 在 闲置 ， 从 而 浪费 资源 。 操 作 系统 
需要 能 感知 超 线 程 ， 因 为 它 必 须知 道 什么 时 候 执 行 单元 实际 上 是 闲置 
的 ， 然 后 切换 相应 的 任务 去 执行 。 这 个 问题 之 前 常见 的 原因 是 在 等 待 
内 存 总 线 ， 可 能 花费 需要 高 达 一 百 个 CPU 周 期 ， 这 已 经 类 似 于 一 个 轻 
量 级 的 MO 等 待 。 新 的 操作 系统 在 这 方面 有 了 很 大 的 改善 。 超 线程 现在 
已 经 工作 得 很 好 。 过 去 ， 我 们 时 常 提醒 人 们 茶 用 它 ， 但 现在 已 经 不 需 
要 这 样 做 了 。 


这 就 是 说 ， 现 在 可 以 得 到 大 量 的 快速 的 CPU 一 一 比 本 书 的 第 2 版 出 
版 的 时 候 要 多 得 多 。 所 以 多 和 快 哪个 更 重要 ? 一 般 来 说 两 个 都 想 要 。 
从 广义 上 来 说 ， 调 优 服务 器 可 能 有 如 下 两 个 目标 : 


低 延 时 (快速 响应 ) 


要 做 到 这 一 点 ， 需 要 高 速 CPU， 因 为 每 个 查询 只 能 使 用 一 个 
CPU. 


高 吞吐 


如 果 能 同时 运行 很 多 查询 语句 ， 则 可 以 从 多 个 CPU 处 理 查询 
中 受益 。 然 而 ， 在 实践 中 ， 还 要 取决 于 具体 情况 。 因 为 MySQL 还 
不 能 在 多 个 CPU 中 完美 地 扩展 ， 能 用 多 少 个 CPU 还 是 有 极限 的 。 
在 旧版 本 的 MySQL 中 (MySQL 5.1 以 后 的 版 本 已 经 有 一 些 提 
升 ) ， 这 个 限制 非常 严重 。 在 新 的 版 本 中 ， 则 可 以 放心 地 扩展 到 
16 或 24 个 CPU， 或 者 更 多 ， 取 决 于 使 用 的 是 哪个 版 本 (Perconatt 
往 在 这 方面 略 占 优势 ) 。 


如 果 有 多 路 CPU， 并 且 没 有 并 发 执行 查询 语句 ，MySQL 依 然 可 以 
利用 额外 的 CPU 为 后 台 任 务 (例如 清理 InnoDB 缓 冲 、 网 络 操作 ， 等 
等 ) 服务 。 然 而 ， 这 些 任务 通常 比 执行 查询 语句 更 加 轻 量 化 。 


MySQL 复 制 (将 在 下 一 章 中 讨论 ) 也 能 在 高 速 CPU 下 工作 得 非常 
好 ， 而 多 CPU 对 复制 的 帮助 却 不 大 。 如 果 工 作 负 载 是 CPU 密集 型 ， 主 
库 上 的 并 发 任务 传递 到 备 库 以 后 会 被 简化 为 串 行 任务 ， 这 样 即使 备 库 
硬件 比 主 库 好 ， 也 可 能 无 法 保持 跟 主 库 之 间 的 同步 。 也 就 是 说 ， 备 库 
的 瓶颈 通 瘦 是 1/O 子 系统 ， 而 不 是 CPU。 


如 果 有 一 个 CPU 密集 型 的 工作 负载 ， 考 虑 是 需要 更 快 的 CPU 还 是 
更 多 CPU 的 另外 一 个 因素 是 查询 语句 实际 在 做 什么 。 在 硬件 层面 ， 一 
个 查询 可 以 在 执行 或 等 待 。 处 于 等 待 状态 常见 的 原因 是 在 运行 队列 中 
等 待 (进程 已 经 是 可 运行 状态 ,但 所 有 的 CPU 都 忙 ) 、 等 待 门 锁 
(Latch) 或 锁 (Lock) 、 等 待 磁盘 或 网 络 。 那 么 你 期 望 查询 是 等 待 什 
Ale? 如 果 等 待 门 锁 或 锁 ， 通 常 需 要 更 快 的 CPU; 如 果 在 运行 队列 中 
等 待 ， 那 么 更 多 或 者 更 快 的 CPU 都 可 能 有 帮助 。 (也 可 能 有 例外 ， 例 
如 ， 查 询 等 待 mnoDB 日 志 缓 冲 区 的 Mutex， 直 到 IO 完成 前 都 不 会 释放 
一 一 这 可 能 表明 需要 更 多 的 MO 容量 ) o 


这 就 是 说 ，MySQL 在 某 些 工作 负载 下 可 以 有 效 地 利用 很 多 CPU。 
例如 ， 假 设 有 很 多 连接 查询 的 是 不 同 表 (假设 这 些 查询 不 会 造成 表 锁 
的 竞争 ， 实 际 上 对 MyISAM 和 MEMORY 表 可 能 会 有 问题 ) ， 并 且 服 务 
器 的 总 吞吐 量 比 任何 单个 查询 的 响应 时 间 都 更 重要 。 吞 吐 量 在 这 种 情 
况 下 可 以 非常 高 ， 因 为 线程 可 以 同时 运行 而 互 不 争 用 。 


再 次 说 明 ， 在 理论 上 这 可 能 更 好 地 工作 : 不 管 查询 是 读 取 不 同 的 
表 还 是 相同 的 表 ， InnoDB 都 会 有 一 些 全 局 共享 的 数据 结构 ， 而 


MyISAM 在 每 个 缓冲 区 都 有 全 局 锁 。 而 且 不 仅仅 是 存储 引擎 ， 服 务 器 
层 也 有 全 局 锁 。 以 前 InnoDB 承 担 了 所 有 的 骂 名 ， 但 最 近 做 了 一 些 改 进 
后 ， 暴 露 了 服务 器 层 中 的 其 他 瓶颈 。 例 如 臭名 昭著 的 LOCK_open 互 斥 
= (Mutex) ， 在 MySQL 5.1 和 更 早 版 本 中 可 能 就 是 个 大 问题 ， 另 外 还 
有 其 他 一 些 服务 器 级 别 的 互 斥 量 (例如 查询 缓存 ) 。 


通常 可 以 通过 堆栈 跟踪 来 诊断 这 些 类 型 的 竞争 问题 ， 例 如 Percona 
Toolkit 中 的 pt-pmp 工 具 。 如 果 遇 到 这 样 的 问题 ， 可 能 需要 改变 服务 器 
的 配置 ， 禁 用 或 改变 引起 问题 的 组 件 ， 进 行 数据 分 片 (Sharding) , 
或 者 通过 某 种 方式 改变 做 事 的 方法 。 这 里 无 法 列举 所 有 的 问题 和 相应 
的 解决 方案 ， 但 是 一 旦 有 一 个 确定 的 诊断 ， 答 案 通 常 是 显而易见 的 。 
大 部 分 不 乎 遇 到 的 问题 都 是 边缘 场景 ， 最 常见 的 问题 随 着 时 间 的 推移 
都 在 服务 器 上 被 修复 了 。 


9.2.2 ”CPU 架构 


可 能 99% 以 上 的 MySQL 实 例 (AQRATER) 都 运行 在 mtel 或 
者 AMD 忆 片 的 x86 架 构 下 。 本 书 中 我 们 基本 都 是 针对 这 种 情况 。 


64 位 架构 现在 都 是 默认 的 了 ，32 位 CPU 已 经 很 难 买 到 了 。MYySQL 
在 64 位 架构 上 工作 良好 ， 尽 管 有 些 事 暂 时 不 能 利用 64 位 架构 来 做 。 
此 ， 如 果 使 用 的 是 较 老 旧版 本 的 MySQL ， 在 64 位 服务 器 上 可 能 要 小 
心 。 例 如 ， 在 MySQL 5.0 发 布 的 早期 时 候 ， 每 个 MyISAM 键 缓冲 区 被 
限制 为 4 GB， 由 一 个 32 位 整数 负责 寻 址 。 (可 以 创建 多 个 键 缓冲 区 来 


解决 这 个 问题 。) 


确保 在 64 位 硬件 上 使 用 64 位 操作 系统 ! 最 近 这 种 情况 已 经 不 太 常 
见 了 ， 但 以 前 经 党 可 以 遇 到 ， 大 多 数 主 机 托管 提供 商 暂时 还 是 在 服务 
器 上 安装 32 位 操作 系统 ， 即 使 是 64 位 CPU。32 位 操作 系统 意味 着 不 能 
使 用 大 量 的 内 存 : 尽管 某 些 32 位 系统 可 以 支持 大 量 的 内 存 ， 但 不 能 像 
64 位 系统 一 样 有 效 地 利用 ， 并 且 在 32 位 系统 上 ， 任 何 一 个 单独 的 进程 
都 不 能 寻 址 4 GB 以 上 的 内 存 。 


9.2.3 ”扩展 到 多 个 CPU 和 核心 


多 CPU 在 联机 事务 处 理 (OLTP) 系统 的 场景 中 非常 有 用 。 这 些 系 
统 通常 执行 许多 小 的 操作 ， 并 且 是 从 多 个 连接 发 起 请 求 ， 因 此 可 以 在 
多 个 CPU 上 运行 。 在 这 样 的 环境 中 ， 并 发 可 能 成 为 酒 颈 。 大 多 数 Web 
应 用 程序 都 属于 这 一 类 。 


OLTP 服 务 器 一 般 使 用 InnoDB， 尽 管 它 在 多 CPU 的 环境 中 还 存在 
一 些 未 解决 的 并 发 问题 。 然 而 ， 不 只 是 InnoDB 可 能 成 为 瓶颈 : 任何 共 
享 资源 都 是 潜在 的 竞争 点 。InnoDB 之 所 以 获得 大 量 关注 是 因为 它 是 高 
并 发 环境 下 最 常见 的 存储 引擎 ， 但 MyISAM 在 大 压力 时 的 表现 也 不 
好 ， 即 使 不 修改 任何 数据 只 是 读 取 数据 也 是 如 此 。 许 多 并 发 瓶颈 ， 如 
InnoDB 的 行 级 锁 和 MyISAM 的 表 锁 ， 没 有 办 法 优化 除了 尽 可 能 快 
地 处 理 任务 之 外 ， 没 有 别 的 办 法 解决 ， 这 样 ， 锁 就 可 以 尽快 分 配给 
待 的 任务 。 如 果 一 个 锁 是 造成 它们 (其 他 任务 ) 都 在 等 待 的 原因 ， 那 
么 不 管 有 多 少 CPU 都 一 样 。 因 此 ， 即 使 是 一 些 高 并 发 工作 负载 ， 也 可 
以 从 更 快 的 CPU 中 受益 。 


实际 上 有 两 种 类 型 的 数据 库 并 发 问题 ， 需 要 不 同 的 方法 来 解决 ， 
如 下 所 示 。 


逻辑 并 发 问题 


应 用 程序 可 以 看 到 资源 的 竞争 ， 如 表 或 行 锁 争 用 。 这 些 问题 
通常 需要 好 的 策略 来 解决 ， 如 改变 应 用 程序 、 使 用 不 同 的 存储 引 
黎 、 改 变 服务 器 的 配置 ， 或 使 用 不 同 的 锁定 提示 或 事务 隔离 级 


别 。 
内 部 并 发 问题 


比如 信号 量 、 访 问 InnoDB 缓 冲 闻 页 面 的 资源 争 用 ， 等 等 。 可 
以 尝试 通过 改变 服务 器 的 设置 、 改 变 操 作 系 统 ， 或 使 用 不 同 的 硬 
件 解 决 这 些 问 题 ， 但 通 沼 只 能 缓解 而 无 法 彻底 消 淡 。 在 某 些 情况 
下 ， 使 用 不 同 的 存储 引擎 或 给 存储 引擎 打 外 丁 ， 可 以 帮助 缓解 这 


些 问题 。 


MySQL 的 “扩展 模式 ”是 指 它 可 以 有 效 利用 的 CPU 数 量 ， 以 及 在 压 
力 不 断 增长 的 情况 下 如 何 扩 展 ， 这 同时 取决 于 工作 负载 和 系统 架构 。 
通过 “系统 架构 ”的 手段 是 指 通过 调整 操作 系统 和 硬件 ， 而 不 是 通过 优 
化 使 用 MySQL 的 应 用 程序 。CPU 架 构 (RISC、CISC、 流 水 线 深 度 
等 ) 、CPU 型 号 和 操作 系统 都 影响 MySQL 的 扩展 模式 。 这 也 是 为 什么 
说 基准 测试 是 非常 重要 的 : 一 些 系 统 可 以 在 不 断 增加 的 并 发 下 依然 运 
行 得 很 好 ， 而 另 一 些 的 表现 则 糟糕 得 多 。 


有 些 系统 在 更 多 的 处 理 器 下 甚至 可 能 降低 整体 性 能 。 这 是 相当 普 
遍 的 情况 ， 我 们 了 解 到 许多 人 试图 升级 到 有 多 个 CPU 的 系统 ， 最 后 只 
能 被 迫 恢复 到 旧 系 统 〈 或 绑 定 MySQL 进 程 到 其 中 某 些 核心 ) ， 因 为 这 
种 升级 反而 降低 了 性 能 。 在 MySQL 5.0 时 代 ，Google 的 补丁 和 Percona 
Server 出 现 之 前 ， 能 有 效 利 用 的 CPU 核 数 是 4 核 ， 但 是 现在 甚至 可 以 看 


到 操作 系统 报告 多 达 80 个 “CPU” 的 服务 器 。 如 果 规 划一 个 大 的 升级 ， 
必须 要 同时 考虑 硬件 、 服 务 器 版 本 和 工作 负载 。 


某 些 MYSQL 扩展 性 瓶颈 在 服务 器 层 ， 而 其 他 一 些 在 人 存储 引擎 层 。 
存储 引擎 是 怎么 设计 的 至 天 重要 ， 有 时 更 换 到 一 个 不 同 的 引擎 就 可 以 
从 多 处 理 器 上 获得 更 多 效果 。 


我 们 看 到 在 世纪 之 交 围 绕 处 理 器 速度 的 战争 在 一 定 程度 上 已 经 平 
息 ，CPU 厂 商 更 多 地 专注 于 多 核 CPU 和 多 线程 的 变化 。CPU 设 计 的 未 
来 很 可 能 是 数 百 个 处 理 器 核心 ， 四 核心 和 六 核心 的 CPU 在 今天 是 很 党 
见 的 。 不 同 三 两 的 内 部 架构 差异 很 大 ， 不 可 能 概括 出 线程 、CPU 和 内 
核 之 间 的 相互 作用 。 内 存 和 总 线 如 何 设计 也 是 非常 重要 的 。 归 根 结 
底 ， 多 个 内 核 和 多 个 物理 CPU 哪个 更 好 ， 这 是 由 硬件 体系 结构 决定 
的 。 


现代 CPU 的 另外 两 个 复杂 之 处 也 值得 提 一 下 。 首 先是 频率 调整 。 
这 是 一 种 电源 管理 技术 ， 可 以 根据 CPU 上 的 压力 而 动态 地 改变 CPU 的 
时 钟 速 度 。 问 题 是 ， 它 有 时 不 能 很 好 地 处 理 间 歇 性 突 发 的 短 查询 的 情 
况 ， 因 为 操作 系统 可 能 需要 一 段 时 间 来 决定 CPU 的 时 钟 是 否 应 该 变 
化 。 结 果 ， 查 询 可 能 会 有 一 段 时 间 速 度 较 慢 ， 并 且 响 应 时 间 增 加 了 。 
频率 调整 可 能 使 间歇 性 的 工作 负载 性 能 低下 ， 但 可 能 更 重要 的 是 ， 它 
会 导致 性 能 波动 。 


第 二 个 复杂 之 处 是 boost 技 术 ， 这 个 技术 改变 了 我 们 对 CPU 模 式 的 
看 法 。 我 们 曾经 以 为 四 核 2GHz CPU 有 四 个 同样 强大 的 核心 ， 不 管 其 
中 有 些 是 闲置 或 非 闲置 。 因 此 ， 一 个 完美 的 可 扩展 系统 ， 当 它 使 用 所 
有 四 个 内 核 的 时 候 ， 可 以 预计 得 到 四 倍 的 提升 。 但 是 现在 已 经 不 是 这 
样 了 ， 因 为 当 系统 只 使 用 一 个 核心 时 ， 处 理 器 会 运行 在 更 高 的 时 钟 速 


度 上 ， 例 如 3GHz。 这 给 很 多 的 规划 容量 和 可 扩展 性 建 模 的 工具 出 了 一 
个 难题 ， 因 为 系统 性 能 表现 不 再 是 线性 的 变化 了 。 这 也 意味 着 ,“ 空 内 
CPU” 并 不 代表 相同 规模 的 资源 浪费 ， 如 果 有 一 台 服 务 器 上 只 运行 了 备 
库 的 复制 ， 而 复制 执行 是 单线 程 的 ， 所 以 有 三 个 CPU 是 空 内 的 ， 因 此 
认为 可 以 利用 这 些 CPU 资 源 执行 其 他 任务 而 不 影响 复制 ， 可 能 就 想 错 
Tes 
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配置 大 量 内 存 最 大 的 原因 其 实 不 是 因为 可 以 在 内 存 中 保存 大 量 数 
据 : 最 终 目的 是 避免 磁盘 IO ， 因 为 磁盘 IO 比 在 内 存 中 访问 数据 要 慢 
得 多 。 关 键 是 要 平衡 内 存 和 磁盘 的 大 小 、 速 度 、 成 本 和 其 他 因素 ， 以 
便 为 工作 负载 提供 高 性 能 的 表现 。 在 讨论 如 何 做 到 这 一 点 之 前 ， 暂 时 
先 回 到 基础 知识 上 来 。 


计算 机 包含 一 个 金字 塔 型 的 缓存 体系 ， 更 小 、 更 快 、 更 昂贵 的 缓 
存在 顶端 ， 如 图 9-1 所 示 。 


有 CPU ae 


CPU cache(s) | 
主 存 | 
硬盘 


图 9-1: 缓存 层级 


在 这 个 高 速 缓存 层次 中 ， 最 好 是 利用 各 级 缓存 来 存放 “热点 ” 数 
据 ， 以 获得 更 快 的 访问 速度 ， 通 单 使 用 一 些 启发 式 的 方法 ， 例 如 “最 近 


被 使 用 的 数据 可 能 很 快 再 次 被 使 用 "以 及 “ 相 邻 的 数据 可 能 很 快 需要 使 
用 ”， 这 些 算法 非常 有 效 ， 因 为 它们 参考 了 空间 和 时 间 的 局 部 性 原理 。 


从 程序 员 的 视角 来 看 ，CPU 寄 存 器 和 高 速 缓存 是 透明 的 ， 并 且 和 与 
硬件 架构 相关 。 管 理 它 们 是 编译 器 和 CPU 的 工作 。 然 而 ， 程 序 员 会 有 
意识 地 注意 到 内 存 和 硬盘 的 不 同 ， 并 且 在 程序 中 通常 区 分 使 用 它们 


(4), 


在 数据 库 服务 器 上 尤其 明显 ， 其 行为 往往 非常 符合 我 们 刚才 提 到 
的 预测 算法 所 做 的 预测 。 设 计 良 好 的 数据 库 缓 存 (如 InnoDB 缓 冲 
w) ， 其 效率 通常 超过 操作 系统 的 缓存 ， 因 为 操作 系统 缓存 是 为 通用 
任务 设计 的 。 数 据 库 缓存 更 了 解数 据 库 存 取 数 据 的 需求 ， 它 包含 特殊 
用 途 的 逻辑 (例如 写 入 顺序 ) 以 帮助 满足 这 些 需求 。 此 外 ， 系 统 调用 
不 需要 访问 数据 库 中 的 缓存 数据 。 


这 些 专用 的 缓存 需求 就 是 为 什么 必须 平衡 缓存 层次 结构 以 适应 数 
据 库 服务 器 特定 的 访问 模式 的 原因 。 因 为 寄存 器 和 心 片上 的 高 速 缓存 
不 是 用 户 可 配置 的 ， 内 存 和 存储 是 唯一 可 以 改变 的 东西 。 


9.3.1 ”随机 LO 和 顺序 I/O 


数据 库 服务 器 同时 使 用 顺序 和 随机 WO， 随 机 WO 从 缓存 中 受益 最 
多 。 想 像 有 一 个 典型 的 竟 合 工作 负载 ,均衡 地 包含 单行 查找 与 多 行 沁 


分 布 。 因 此 ， 缓 存 这 些 数据 将 有 助 于 避免 昂贵 的 磁盘 寻 道 。 相 反 ， 顺 
序 读 取 一 般 只 需要 扫描 一 次 数据 ， 所 以 缓存 对 它 是 没 用 的 ， 除 非 能 完 
全 放 在 内 存 中 缓存 起 来 。 


顺序 读 取 不 能 从 缓存 中 受益 的 另 一 个 原因 是 它们 比 随 机 读 快 。 这 
有 以 下 两 个 原因 : 


顺序 WO 比 随机 WO 快 。 


顺序 操作 的 执行 速度 比 随机 操作 快 ， 无 论 是 在 内 存 还 是 磁盘 
上 。 假 设 磁 盘 每 秒 可 以 做 100 个 随机 IO 操作 ， 并 且 可 以 完成 每 秒 
50MB 的 顺序 读 取 (这 大 概 是 消费 级 磁盘 现在 能 达到 的 水 平 ) 。 
如 果 每 行 100 字 节 ， 随 机 读 每 秒 可 以 读 100 行 ， 相 比 之 下 顺序 读 可 
以 每 秒 读 500000 行 一 一 是 随机 读 的 5000 倍 ， 或 几 个 数量 级 的 差 
异 。 因 此 ， 在 这 种 情况 下 随机 WO 可 以 从 缓存 中 获得 很 多 好 处 。 


顺序 访问 内 存 行 的 速度 也 快 于 随机 访问 。 现 在 的 内 存心 片 通 
常 每 秒 可 以 随机 访问 约 250000 次 100 字 节 的 行 ， 或 者 每 秒 500 万 次 
的 顺序 访问 。 请 注意 ， 内 存 随机 访问 速度 比 磁 盘 随机 访问 快 了 2 
500 倍 ， 而 内 存 中 顺序 访问 只 有 磁盘 10 倍 的 速度 。 


存储 引擎 执行 顺序 读 比 随机 读 快 。 


一 个 随机 读 一 般 意 味 着 存储 引擎 必须 执行 索引 操作 。 (这 个 
规则 也 有 例外 ， 但 对 InnoDB 和 MyISAM 都 是 对 的 ) 。 通 常 需 要 通 
过 B 树 的 数据 结构 查找 ， 并 且 和 其 他 值 比较 。 相 反 ， 连 续 读 取 一 
般 需 要 遍历 一 个 简单 的 数据 结构 ， 例 如 链表 。 这 样 就 少 了 很 多 工 
作 ， 反 复 这 样 操 作 ， 连 续 读 取 的 速度 就 比 随机 读 取 要 快 了 。 


最 后 ， 随 机 读 取 通常 只 要 查找 特定 的 行 ， 但 不 仅仅 只 读 取 一 行 
一 一 而 是 要 读 取 一 整 页 的 数据 ， 其 中 大 部 分 是 不 需要 的 。 这 浪费 了 很 


多 工作 。 另 一 方面 ， 顺 序 读 取 数据 ， 通 常 发 生 在 想 要 的 页 面 上 的 所 有 
行 ， 所 以 更 符合 成 本 效益 。 


综 上 所 述 ， 通 过 缓存 顺序 读 取 可 以 节省 一 些 工 作 ， 但 缓存 随机 读 
取 可 以 节省 更 多 的 工作 。 换 句 话 说， 如 果 能 负担 得 起 ， 增 加 内 存 是 解 
决 随机 LO 读 取 问题 最 好 的 办 法 。 
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如 果 有 足够 的 内 存 ， 就 完全 可 以 避免 磁盘 读 取 请 求 。 如 果 所 有 的 
数据 文件 都 可 以 放 在 内 存 中 ， 一 旦 服务 器 缓存 “ 热 " 起 来 了 ， 所 有 的 读 
操作 都 会 在 缓存 命中 。 虽 然 还 是 会 有 逻辑 读 取 ， 不 过 物理 读 取 就 没有 
了 。 但 写 入 是 不 同 的 问题 。 写 入 可 以 像 读 一 样 在 内 存 中 完成 ， 但 迟早 
要 被 写 入 到 磁盘 ， 所 以 它 是 需要 持久 化 的 。 换 名 话说， 缓存 可 延缓 写 
入 ， 但 不 能 像 消除 读 取 一 样 消除 写 入 。 


事实 上 ， 除 了 允许 写 入 被 延迟 ， 缓 存 可 以 允许 它们 被 集中 操作 ， 
主要 通 以 下 两 个 重要 途径 : 
多 次 写 入 ,一 次 刷新 


一 片 数据 可 以 在 内 存 中 改变 很 多 次 ， 而 不 需要 把 所 有 的 新 值 
写 到 磁盘 。 当 数据 最 终 被 刷新 到 磁盘 后 ， 最 后 一 次 物理 写 之 前 发 
生 的 修改 都 被 持久 化 了 。 例 如 ， 许 多 语句 可 以 更 新 内 存 中 的 计数 
器 。 如 果 计 数 器 递增 100 次 ， 然 后 写 入 到 磁盘 ，100 次 修改 就 被 合 
并 为 一 次 写 。 


IO 合并 


许多 不 同 部 分 的 数据 可 以 在 内 存 中 修改 ， 并 且 这 些 修改 可 以 
合并 在 一 起 ， 通 过 一 次 磁盘 操作 完成 物理 写 入 。 


这 就 是 为 什么 许多 交易 系统 使 用 预 瑟 日 志 (WAL) 策略 。 预 写 日 
志 采 用 在 内 存 中 变更 页 面 ， 而 不 马上 刷新 到 磁盘 上 的 策略 ， 因 为 刷新 
磁盘 通常 需要 随机 WO， 这 非常 慢 。 相 反 ， 如 果 把 变化 的 记录 写 到 一 个 
连续 的 日 志文 件 ， 这 就 很 快 了 7。 后台 线 程 可 以 稍 后 把 修改 的 页 面 刷新 
到 磁盘 ; 并 在 刷新 过 程 中 优化 写 操作 。 


写 入 从 缓冲 中 大 大 受益 ， 因 为 它 把 随机 MO 更 多 地 转换 到 连续 
VO. RY (缓冲 ) 写 通 常 是 由 操作 系统 批量 处 理 ， 使 它们 能 以 更 优化 
的 方式 刷新 到 磁盘 。 同 步 〈 无 缓冲 ) 写 必 须 在 写 入 到 磁盘 之 后 才能 完 
成 。 这 就 是 为 什么 它们 受益 于 RAID 控 制 器 中 电池 供电 的 回 写 (Write- 
Back) 高 速 缓存 (我 们 稍 后 讨论 RAID) 。 


9.3.3 ”工作 集 是 什么 


每 个 应 用 程序 都 有 一 个 数据 的 “工作 集 ” 一 一 就 是 做 这 个 工作 确实 
需要 用 到 的 数据 。 很 多 数据 库 都 有 大 量 不 在 工作 集 内 的 数据 。 


可 以 把 数据 库 想 销 为 有 抽 居 的 办 公 桌 。 工 作 集 就 是 放 在 桌面 上 的 
完成 工作 必须 使 用 的 文件 。 桌 面 是 这 个 比喻 中 的 主 内 存 ， 而 抽 民 就 是 
硬盘 。 


就 像 完 成 工作 不 需要 办 公 桌 里 每 一 张 纸 一 样 ， 也 不 需要 把 整个 数 
据 库 闭 到 内 存 中 来 获得 最 佳 性 能 一 一 只 需要 工作 集束 可 以 。 


工作 集 大 小 的 不 同 取决 于 应 用 程序 。 对 于 某 些 应 用 程序 ， 工 作 集 
可 能 是 总 数据 大 小 的 1%， 而 对 于 其 他 应 用 ， 也 可 能 接近 1009%。 当 工 
作 集 不 能 全 放 在 内 存 中 时 ， 数 据 库 服务 器 必须 在 磁盘 和 内 存 之 间 交 换 
数据 ， 以 完成 工作 。 这 就 是 为 什么 内 存 不 足 可 能 看 起 来 却 像 O 问 题 。 
有 时 没有 办 法 把 整个 工作 集 的 数据 放 在 内 存 中 ， 并 且 有 时 也 并 不 真 的 
想 这 么 做 (例如 ， 若 应 用 需要 大 量 的 顺序 VO) 。 工 作 集 能 否 完全 放 在 
内 存 中 ， 对 应 用 程序 体系 结构 的 设计 会 产生 很 大 的 影响 。 


工作 集 可 以 定义 为 基于 时 间 的 百分比 。 例 如 ， 一 小 时 的 工作 集 可 
能 是 一 个 小 时 内 数据 库 使 用 的 95% 的 页 面 ， 除 了 5% 的 最 不 常用 的 页 
面 。 百 分 比 是 考虑 这 个 问题 最 有 用 的 方式 ， 因 为 每 小 时 可 能 需要 访问 
的 数据 只 有 1%， 但 超过 24 小 时 ， 需 要 访问 的 数据 可 能 会 增加 到 整个 数 
据 库 中 20% 的 不 同 页 面 。 根 据 需 要 被 缓存 起 来 的 数据 量 多 少 ， 来 思 
工作 集会 更 加 直观 ， 缓 存 的 数据 越 多 ， 工 作 负载 就 越 可 能 成 为 CPU 密 
集 型 。 如 果 不 能 缓存 足够 的 数据 ， 工 作 集 就 不 能 完全 放 在 内 存 中 。 


应 该 依据 最 常用 的 页 面 集 来 考虑 工作 集 ， 而 不 是 最 频繁 读 写 的 页 
面 集 。 这 意味 着 ， 确 定 工作 集 需 要 在 应 用 程序 内 有 测量 的 模块 ， 而 不 
能 仅仅 看 外 部 资源 的 利用 ， 例 如 1/O 访 问 ， 因 为 页 面 的 1/O 操 作 跟 逻辑 
访问 页 面 不 是 同一 回 事 。 例 如 ，MySQL 可 能 把 一 个 页 面 读 入 内 存 ， 然 
后 访问 它 数 百 万 次 ， 但 如 果 查 看 strace， 只 会 看 到 一 个 IO 操作 。 缺 乏 
确定 工作 集 所 需 的 检测 模块 ， 最 大 的 原因 是 没有 对 这 个 主题 有 较 多 的 
研究 。 


工作 集 包 括 数 据 和 索引 ， 所 以 应 该 采用 缓存 单位 来 计数 。 一 个 缓 
存单 位 是 存储 引擎 工作 的 数据 最 小 单位 。 


不 同 存储 引擎 的 缓存 单位 大 小 是 不 一 样 的 ， 因 此 也 使 得 工作 集 的 
大 小 不 一 样 。 例 如 ， InnoDB 在 默认 情况 下 是 16 KB 的 页 。 如 果 InnoDB 
做 一 个 单行 查找 需要 读 取 磁 盘 ， 就 需要 把 包含 该 行 的 整个 页 面 读 入 缓 
冲 池 进行 缓存 ， 这 会 引起 一 些 缓存 的 浪费 。 假 设 要 随机 访问 100 字 节 的 
行 。InnoDB 将 用 掉 缓 冲 池 中 很 多 额外 的 内 存 来 缓存 这 些 行 ， 因 为 每 一 
行 都 必须 读 取 和 缓存 一 个 完整 的 16KB 页 面 。 因 为 工作 集 也 包括 索引 ， 
InnoDB 也 会 读 取 并 缓存 查找 行 所 需 的 索引 树 的 一 部 分 。InnoDB 的 索引 
页 大 小 也 是 16 KB， 这 意味 着 访问 一 个 100 字 节 的 行 可 能 一 共 要 使 用 32 
KB 的 缓存 空间 (有 可 能 更 多 ， 这 取决 于 索引 树 有 多 深 ) 。 因 此 ， 缓 存 
单位 也 是 在 InnoDB 中 精心 挑选 聚集 索引 非常 重要 的 另 一 个 原因 。 聚 集 
索引 不 仅 可 以 优化 磁盘 访问 ， 还 可 以 帮助 在 同一 页 面 存 储 相 关 的 数 
据 ， 因 此 在 缓存 中 可 以 尽量 放下 整个 工作 集 。 


9.3.4 ”找到 有 效 的 内 存 /磁盘 比例 


找到 一 个 良好 的 内 存 / 磁 盘 比 例 最 好 的 方式 是 通过 试验 和 基准 测 
试 。 如 果 可 以 把 所 有 东西 放 入 内 存 ， 你 就 大 功 告 成 了 一 一 后 面 没 有 必 
要 再 为 此 考虑 什么 。 但 大 多 数 的 时 候 不 可 能 这 么 做 ， 所 以 需要 用 数据 
的 一 个 子 集 来 做 基准 测试 ， 看 看 将 会 发 生 什 么 。 测 试 的 目标 是 一 个 可 
接受 的 缓存 命中 率 。 缓 存 未 命中 是 当 有 查询 请 求 数据 时 ， 数 据 不 能 在 
内 存 中 命中 ， 服 务 器 需要 从 磁盘 获取 数据 。 


缓存 命中 率 实 际 上 也 会 决定 使 用 了 多 少 CPU， 所 以 评估 缓存 命中 
率 的 最 好 方法 是 查看 CPU 使 用 率 。 例 如 ， 若 CPU 使 用 了 99% 的 时 间 工 
作 ， 用 了 1% 的 时 间 等 待 /O， 那 缓存 命中 率 还 是 不 错 的 。 


让 我 们 考虑 下 工作 集 是 如 何 影响 高 速 缓存 命中 率 的 。 首 先 重要 的 
一 点 ， 要 认识 到 工作 集 不 仅 是 一 个 单一 的 数字 而 是 一 个 统计 分 布 ， 并 
且 缓 存 命中 率 是 非 线 性 分 布 的 。 例 如 ， 有 10GB 内 存 ， 并 且 缓 存 未 命 
率 为 10%， 你 可 能 会 认为 只 需要 增加 119% 以 上 的 内 存 呈 ， 就 可 以 降低 缓 
存 的 未 命中 率 到 0。 但 实际 上 ， 诸 如 缓存 单位 的 大 小 之 类 的 问题 会 导 至 
缓存 效率 低下 ， 可 能 意味 着 理论 上 需要 50GB 的 内 存 ， 才 能 把 未 命中 率 
降 到 1%。 即 使 与 一 个 完美 的 缓存 单位 相 匹 配 ， 理 论 预 测 也 可 能 是 错误 
的 : 例如 数据 访问 模式 的 因素 也 可 能 让 事情 更 复杂 。 解 决 1% 的 缓存 未 
命中 率 甚 至 可 能 需要 500GB 的 内 存 ， 这 取决 于 具体 的 工作 负载 ! 


有 时 候 很 容易 去 优化 一 些 可 能 不 会 带 来 多 少 好 处 的 地 方 。 例 如 ， 
10% 的 未 命中 率 可 能 导致 80% 的 CPU 使 用 率 ， 这 已 经 是 相当 不 错 的 
了 。 假 设 增 加 内 存 ， 并 能 够 让 缓存 未 命中 率 下 降 到 5%， 简 单 来 说 ， 将 
提供 另外 约 6% 的 数据 给 CPU。 再 简化 一 下 ， 也 可 以 说 ， 把 CPU 使 用 率 
增加 到 了 84.8%。 然 而 ， 考 虑 到 为 了 得 到 这 个 结果 需要 购买 的 内 存 ， 
这 可 不 一 定 是 一 个 大 胜利 。 在 现实 中 ， 因 为 内 存 和 磁盘 访问 速度 之 间 
的 差异 、CPU 真 正 操作 的 数据 ， 以 及 许多 其 他 因素 ， 降 低 缓存 未 命 
率 到 59% 可 能 都 不 会 太 多 改变 CPU 使 用 率 。 


这 就 是 为 什么 我 们 说 ， 你 应 该 争取 一 个 可 接受 的 缓存 命中 率 ， 而 
不 是 将 缓存 未 命中 率 降 低 到 零 。 没 有 一 个 应 该 作为 目标 的 数字 ， 因 为 
“可 以 接受 ”怎么 定义 ， 取 决 于 应 用 程序 和 工作 负载 。 有 些 应 用 程序 有 
1% 的 缓存 未 命中 都 可 以 工作 得 非常 好 ， 而 另 一 些 应 用 实际 上 需要 这 个 
比例 低 到 0.01% 才 能 良好 运转 。 (“良好 的 缓存 未 命中 率 ” 是 个 模糊 的 概 
念 ， 其 实 有 很 多 方法 来 进一步 计算 未 命中 率 。 ) 


最 好 的 内 存 /磁盘 的 比例 还 取决 于 系统 上 的 其 他 组 件 。 假 设 有 16 
GB 的 内 存 、20 GB 的 数据 ， 以 及 大 量 未 使 用 的 磁盘 空间 系统 。 该 系统 


在 80% 的 CPU 利用 率 下 运行 得 很 好 。 如 果 想 在 这 个 系统 上 放置 两 僧 多 
的 数据 ， 并 保持 相同 的 性 能 水 平 ， 你 可 能 会 认为 只 需要 让 CPU 数量 和 
内 存量 也 增加 到 两 倍 。 然 而 ， 即 使 系统 中 的 每 个 组 件 都 按照 增加 的 负 
载 扩 展 相 同 的 量 〈 一 个 不 切实 际 的 假设 ) ， 这 依然 可 能 会 使 得 系统 无 
法 正常 工作 。 有 20GB 数 据 的 系统 可 能 使 用 了 某 些 组 件 超过 509% 的 容量 
一 一 例如 ， 它 可 能 已 经 用 掉 了 每 秒 1/O 最 大 操作 数 的 80%。 并 且 在 系统 
内 排队 也 是 非 线 性 的 。 服 务 器 将 无 法 处 理 两 倍 的 负载 。 因 此 ， 最 好 的 
内 存 /磁盘 比例 取决 于 系统 中 最 薄弱 的 组 件 。 


9.3.5 ”选择 硬盘 


如 果 无 法 满足 让 足够 的 数据 在 内 存 中 的 目标 一 一 例如 ， 估 计 将 需 
要 500 GB 的 内 存 才 能 完全 让 CPU 负载 起 当前 的 MO 系统 一 一 那么 应 该 考 
虑 一 个 更 强大 的 MO 子 系统 ， 有 时 甚至 要 以 牺牲 内 存 为 代价 ， 同 时 应 用 
程序 的 设计 应 该 能 处 理 1/O 等 待 。 


这 听 起 来 似乎 有 悖 常理 。 毕 竟 ， 我 们 刚刚 说 过 ， 更 多 的 内 存 可 以 
缓解 IO 子 系统 的 压力 ， 并 减少 MO 等 待 。 为 什么 要 加 强 MO 子 系统 呢 ， 
如 果 只 增加 内 存 能 解决 问题 吗 ? 答案 就 在 所 涉及 的 因素 之 间 的 平衡 ， 
例如 读 写 之 间 的 平衡 ， 每 个 IO 操作 的 大 小 ， 以 及 每 秒 有 多 少 这 样 的 操 
作 发 生 。 例 如 ， 若 需要 快速 写 日 志 ， 就 不 能 通过 增加 大 量 有 效 内 存 来 
避免 磁盘 写 入 。 在 这 种 情况 下 ， 投 资 一 个 高 性 能 的 IO 系统 与 带电 池 支 
持 的 写 缓 存 或 固态 存储 ， 可 能 是 个 更 好 的 主意 。 


作为 一 个 简要 回顾 ， 从 传统 磁盘 读 取 数 据 的 过 程 分 为 三 个 步骤 : 
1. 移动 读 取 磁头 到 磁盘 表面 上 的 正确 位 置 。 


2. 等 待 磁盘 旋转 ， 所 有 所 需 的 数据 在 读 取 磁头 下 。 
3. 等 待 磁盘 旋转 过 去 ， 所 有 所 需 的 数据 都 被 读 取 磁头 读 出 。 


磁盘 执行 这 些 操 作 有 多 快 ， 可 以 浓缩 为 两 个 数字 : 访问 时 间 ( 步 
又 1 和 2 合并 ) 和 传输 速度 。 这 两 个 数字 也 决定 延迟 和 吞吐 量 。 不 管 是 
需要 快速 访问 时 间 还 是 快速 的 传输 速度 一 一 或 混合 两 者 一 一 依赖 于 正 
在 运行 的 查询 语句 的 种 类 。 从 完成 一 次 磁盘 读 取 所 需要 的 总 时 间 来 
说 ， 小 的 随机 查找 以 步骤 1 和 2 为 主 ， 而 大 的 顺序 读 主要 是 第 3 步 。 


其 他 一 些 因 素 也 可 以 影响 磁盘 的 选择 ， 哪 个 重要 取决 于 应 用 。 假 
设 正在 为 一 个 在 线 应 用 选择 磁盘 ， 例 如 一 个 受 欢 迎 的 新 闻 网 站 ， 有 大 
量 小 的 磁盘 随机 读 取 。 可 能 需要 考虑 下 列 因素 : 


存储 容量 


对 在 线 应 用 来 说 容量 很 少 成 为 问题 ， 因 为 现在 的 磁盘 通常 足 
够 大 了 。 如 果 不 够 ， 用 RAID 把 小 磁盘 组 合 起 来 是 标准 做 法 @。 


传输 速度 


现代 磁盘 通常 数据 传输 速度 非常 快 ， 正 如 我 们 前 面 看 到 的 。 
究竟 多 快 主要 取决 于 主轴 转速 和 数据 存储 在 磁盘 表面 上 的 密度 ， 
再 加 上 主机 系统 的 接口 的 限制 《许多 现代 磁盘 读 取 数 据 的 速度 比 
接口 可 以 传输 的 快 ) 。 无 论 如 何 ， 传 输 速度 通常 不 是 在 线 应 用 的 
限制 因素 ， 因 为 它们 一 般 会 做 很 多 小 的 随机 查找 。 


访问 时 间 


对 随机 查找 的 速度 而 言 ， 这 通常 是 个 主要 因素 ， 所 以 应 该 寻 
找 更 快 的 访问 时 间 的 磁盘 。 


主轴 转速 


现在 常见 的 转速 是 7 200RPM 、10000RPM， 以 及 
15000RPM。 转 速 不 管 对 随机 查找 还 是 顺序 扫描 都 有 很 大 影响 。 


物理 尺寸 


所 有 其 他 条 件 都 相同 的 情况 下 ， 磁 盘 的 物理 尺寸 也 会 带 来 差 
Bl: 越 小 的 磁盘 ， 移 动 读 取 磁头 需要 的 时 间 就 越 短 。 服 务 器 级 的 
2.5 英 十 磁盘 性 能 往往 比 它们 的 更 大 的 盘 更 快 。 它 们 还 可 以 节省 电 
力 ， 并 且 通 单 可 以 融入 机 箱 中 。 


和 CPU 一 样 ，MySQL 如 何 扩展 到 多 个 磁盘 上 取决 于 存储 引擎 和 工 
作 负 载 。InnoDB 能 很 好 地 扩展 到 多 个 硬盘 驱动 器 。 然 而 ，MyISAM 的 
表 锁 限制 其 写 的 可 扩展 性 ， 因 此 写 繁重 的 工作 加 在 MyI SAM 上 ， 可 能 
无 法 从 多 个 驱动 器 中 收益 。 虽 然 操作 系统 的 文件 系统 缓冲 和 后 台 并 发 
写 入 会 有 点 帮助 ， 但 MyISAM 相 对 于 InnoDB 在 写 可 扩展 性 上 有 更 多 的 
限制 。 


和 CPU 一 样 ， 更 多 的 磁盘 也 并 不 总 是 更 好 。 有 些 应 用 要 求 低 延 迟 
需要 的 是 更 快 的 驱动 器 ， 而 不 是 更 多 的 驱动 器 。 例 如 ， 复 制 通常 在 更 
快 的 驱动 器 上 表现 更 好 ， 因 为 备 库 的 更 新 是 单线 程 的 。 


9.4 ”固态 存储 


固态 (闪存 ) 存储 器 实际 上 是 有 30 年 历史 的 技术 ， 但 是 它 作为 新 
一 代 驱 动 器 而 成 为 热门 则 是 最 近 几 年 的 事 。 固 态 存储 现在 越 来 越 便 
宜 ， 并 且 也 更 成 熟 了 ， 它 正在 被 广泛 使 用 ， 并 且 可 能 会 在 不 久 的 将 来 
在 多 种 用 途上 代替 传统 磁盘 。 


固态 存储 设备 采用 非 易 失 性 内 存心 片 而 不 是 磁性 盘 片 组 成 。 它 们 
也 被 称 为 NVRAM， 或 非 易 失 性 随机 存 取 存储 器 。 固 态 存储 设备 没有 
移动 部 件 ， 这 使 得 它们 表现 得 跟 硬 盘 驱 动 器 有 很 大 的 不 同 。 我 们 将 详 
细 探 讨 其 差异 。 


目前 MySQL 用 户 感 兴趣 的 技术 可 分 为 两 大 类 : SSD (固态 硬盘 ) 
和 PCIe 卡 。SSD 通 过 实现 SAIA 〈 串 行 高 级 技术 附件 ) 接口 来 模拟 标准 
硬盘 ， 所 以 可 以 替代 硬盘 驱动 器 ， 直 接 插入 服务 器 机 箱 中 的 现 有 插 
槽 。PCIe 卡 使 用 特殊 的 操作 系统 驱动 程序 ， 把 存储 设备 作为 一 个 块 设 
备 输出 。PCIe 和 SSD 设 备 有 时 可 以 简单 地 都 认为 是 SSD。 


下 面 是 闪存 性 能 的 快速 小 结 。 高 质量 闪存 设 备 具备 : 


相 比 硬盘 有 更 好 的 随机 读 写 性 能 。 闪 存 设备 通常 读 明 显 比 写 要 
快 。 

相 比 硬盘 有 更 好 的 顺序 读 写 性 能 。 但 是 相 比 而 言 不 如 随机 IO 的 改 
善 那么 大 ， 因 为 硬盘 随机 1/O 比 顺序 1/O 要 慢 得 多 。 入 门 级 固态 硬 
盘 的 顺序 读 取 实际 上 还 可 能 比 传统 硬盘 慢 。 

相 比 硬盘 能 更 好 地 支持 并 发 。 闪 存 设 备 可 以 支持 更 多 的 并 发 操 
作 ， 事 实 上 ， 只 有 大 量 的 并 发 请 求 才能 真正 实现 最 大 吞吐 量 。 


最 重要 的 事情 是 提升 随机 LO 和 并 发 性 。 闪 存 记忆 体 可 以 在 高 并 发 
下 提供 很 好 的 随机 MO 性 能 ， 这 正 是 范式 化 的 数据 库 所 需要 的 。 设 计 非 


泄 陈 化 的 Schema 最 单 见 的 原因 之 一 是 为 了 避免 随机 IO， 并 且 使 得 查询 
可 能 转化 为 顺序 IO。 


因此 ， 我 们 相信 固态 存储 未 来 将 从 根本 上 改变 RDBMS 技 术 。 当 前 
这 一 代 的 RDBMS 技 术 几 十 年 来 都 是 为 机 械 磁盘 做 优化 的 。 同 样 成 熟 和 
深入 的 研究 工作 在 固态 存储 上 还 没有 真正 出 现 (%。 


9.4.1 ”闪存 概述 


硬盘 驱动 器 使 用 旋转 盘 片 和 可 移动 磁头 ， 其 物理 结构 决定 了 磁盘 
固有 的 局 限 性 和 特征 。 对 固态 存储 也 是 一 样 ， 它 是 构建 在 内 存 之 上 
的 。 不 要 以 为 固态 存储 很 简单 ， 实 际 上 比 硬盘 驱动 器 在 某 些 方面 更 复 
杂 。 闪 存 的 限制 实际 上 是 相当 严重 的 ， 并 且 难 以 克服 ， 所 以 典型 的 固 
态 设备 都 有 错综复杂 的 架构 、 缓 存 ， 以 及 独 有 的 “法 宝 ”。 


闪存 的 最 重要 的 特征 是 可 以 迅速 完成 多 次 小 单位 读 取 ， 但 是 写 入 
更 有 挑战 性 。 闪 存 不 能 在 没有 做 探 除 操作 前 改写 一 个 单元 (Cell) 
已 ， 并 且 一 次 必须 探 除 一 个 大 块 一 一 例如 ，512 KB。 擦 除 周期 是 缓慢 
的 ， 并 且 最 终 会 磨损 整个 块 。 一 个 块 可 以 容忍 的 探 除 周期 次 数 取 决 于 
所 使 用 的 底层 技术 ， 有 关 这 些 内 容 我 们 稍 后 再 讲 。 


写 入 的 限制 是 固态 存储 复杂 的 原因 。 这 也 是 为 什么 一 些 设备 供应 
商 在 设备 的 稳定 、 性 能 的 一 致 性 等 方面 和 其 他 供应 商 有 区 别 的 原因 。 
“魔法 ”全 部 都 在 其 专 有 的 固件 、 驱 动 程序 ， 以 及 其 他 零 零碎 碎 的 东西 
里 ， 这 些 东 西 使 得 固态 设备 恨 好 运转 。 为 了 使 写 入 表现 良好 ， 并 避免 
闪存 块 过 早 损耗 完 寿 命 ， 设 备 必 须 能 够 搬迁 页 面 并 执行 垃圾 收集 和 所 
谓 的 磨损 均衡 。 写 放大 用 于 描述 数据 从 一 个 地 万 移动 到 另 一 个 地 方 的 


额外 写 操作 ， 多 次 写 数 据 和 元 数据 导致 局 部 块 经 常 写 。 如 果 你 有 兴 
趣 ， 维 基 百 科 中 的 写 放 大 的 文章 ， 是 个 学 习 的 好 地 方 ， 可 以 从 其 中 了 
解 更 多 天 于 闪存 的 知识 。 


垃圾 收集 对 理解 内 存 很 重要 。 为 了 保持 一 些 块 是 干净 的 并 且 可 以 
被 写 入 ， 设 备 需 要 回收 脏 块 。 这 需要 设备 上 有 一 些 空 闪 空间 。 无 论 是 
设备 内 部 有 一 些 看 不 到 的 预 留 空间 ， 或 者 通过 不 写 那 么 多 数据 来 预 贸 
需要 的 空间 一 一 不 同 的 设备 可 能 有 所 不 同 。 无 论 哪 种 方式 ， 设 备 填 满 
了 ， 垃 圾 收集 就 必须 更 加 努力 地 工作 ， 以 保持 一 些 块 是 干净 的 ， 所 以 
写 放 大 的 倍数 融 增 加 了 。 


因此 ， 许 多 设备 在 被 填 满 后 会 开始 变 慢 。 到 底 会 慢 多 少 ， 不 同 的 
制造 商 和 型 号 之 间 有 所 不 同 ， 依 赖 于 设备 的 架构 。 有 些 设 备 为 高 性 能 
而 设计 ， 即 使 写 得 非常 满 ， 依 然 可 以 保持 高 性 能 。 但 是 ， 通 常 一 个 
100GB 的 文件 在 160GB 和 320GB 的 SSD 上 表现 完全 不 同 。 速 度 下 降 是 由 
于 没有 空闲 块 时 必须 等 待 擦 写 完 成 所 造成 的 。 写 到 一 个 空 朵 块 只 需要 
人 花费 数 百 微 秒 ， 但 是 擦 写 慢 得 多 一 -通常 需要 几 个 毫秒 。 


9.4.2 ”闪存 技术 


有 两 种 主要 的 闪存 设备 类 型 ， 当 考虑 购买 内 存 存储 时 ， 理 解 两 者 
之 间 的 不 同 是 很 重要 的 。 这 两 种 类 型 分 别 是 单 层 单元 (SLC) 和 多 层 
单元 (MLC) 。 


SLC 的 每 个 单元 存储 数据 的 一 个 比特 : 可 以 是 0 或 1。SLC 相 对 更 
昂贵 ， 但 非常 快 ， 并 且 探 写 寿 命 高 达 100000 个 写 周期 ， 具 体 值 取决 于 
供应 商 和 型 号 。 这 听 起 来 好 像 不 多 ， 但 在 现实 中 一 个 好 的 SLC 设备 应 


该 持续 使 用 大 约 20 年 左右 ， 甚 至 比 卡 上 安装 的 控制 器 更 耐用 和 可 靠 。 
缺点 则 是 存储 密度 相对 较 低 ， 所 以 不 能 在 每 个 设备 上 得 到 那么 多 空 
间 。MLC 每 个 单元 存储 2 个 比特 、3 个 比特 的 设备 也 正在 进入 市 场 。 这 
使 得 通过 MLC 设 备 获得 更 高 的 存储 密度 (更 大 的 容量 ) 成 为 可 能 。 成 
本 更 低 了 ， 但 是 速度 和 耐 擦 写 性 也 下 降 了 。 一 个 不 错 的 MLC 设 备 可 能 
被 定 为 10000 个 写 循 环 周期 。 


可 以 在 大 众 市 场 上 购买 到 这 两 种 类 型 的 闪存 设备 ， 它 们 之 间 的 竞 
争 有 助 于 闪存 的 发 展 。 目 前 ，SLC 仍 持 有 “企业 ”级 服务 器 的 存储 解决 
方案 的 声誉 ， 通 常 被 视 为 消费 级 的 MLC 设 备 ， 一 般 使 用 在 笔记 本 电脑 
和 数码 相机 等 地 方 。 然 而 ， 这 种 情况 正在 改变 ， 出 现 了 一 种 新 兴 的 所 
谓 企业 级 MLC (eMLC) 存储 。 


MLC 技 术 的 发 展 是 很 有 意思 的 ， 如 果 正 在 考虑 购买 内 存 存储 ， 这 
个 发 展 方向 值得 密切 关注 。MLC 非 常 复杂 ， 包 含 很 多 有 助 于 设备 质量 
和 性 能 的 重要 因素 。 任 何 给 定 的 心 片 仅 靠 自身 是 不 能 持久 化 的 ， 因 为 
有 着 相对 较 短 的 信号 保持 周期 ， 以 及 较 高 的 错误 率 必须 纠正 。 随 着 市 
场 转 移 到 更 小 、 密 度 更 高 的 心 片 ， 其 中 的 心 片 单元 可 以 存储 3 比特 ， 单 
个 心 片 变 得 更 不 可 靠 以 及 更 容易 出 错 。 


然而 ， 这 并 不 是 一 个 不 可 逾越 的 工程 问题 。 厂 商 正 在 制造 一 些 有 
越 来 越 多 隐藏 容量 的 设备 ， 因 此 有 足够 的 内 部 匈 余 。 尽 管内 存 厂商 非 
常 注意 保护 自己 的 商业 秘密 ， 还 是 有 传言 称 ， 某 些 设备 可 能 有 比 它 标 
称 大 小 多 出 高 达 两 倍 的 存储 空间 。 使 MLC 心 片 更 耐用 的 另 一 种 方法 是 
通过 固件 逻辑 。 平 衡 磨损 和 重 映射 的 算法 是 非常 重要 的 。 


寿命 的 长 短 取决 于 真实 的 容量 ， 固 件 人 逻辑 等 一 一 所 以 最 终 是 因 供 
应 商 而 异 的 。 我 们 听 说 过 在 几 个 星期 里 密集 使 用 导致 设备 报废 的 报 


因此 ，MLC 设 备 最 关键 的 环节 是 内 置 的 算法 和 智能 。 制 造 一 个 好 
的 MLC 设 备 比 制造 一 个 SLC 设备 难得 多 ， 但 也 是 可 能 的 。 随 着 工程 学 
的 伟大 进步 ， 以 及 容量 和 密度 的 增加 ， 一 些 最 好 的 供应 商 提 供 的 设 
备 ， 是 值得 用 eMLC 这 个 标签 的 。 这 个 领域 随 着 时 间 的 推移 进步 得 很 
快 ， 本 书 对 MLC 与 SLC 的 意见 可 能 很 快 会 变 得 过 时 。 


设备 的 寿命 还 剩 多 久 ? 


Virident 担 保 其 FlashMax 1.4 TB MLC 设 备 可 以 持续 写 入 15 PB 数 
据 ， 但 这 是 在 闪存 级 别 的 数据 ， 用 户 可 见 的 写 入 是 会 放大 的 。 我 们 
跑 了 一 个 小 实验 来 发 现 特定 的 工作 负载 下 的 写 入 放大 因子 。 


我 们 创建 了 一 个 500GB 的 数据 集 ， 然 后 在 上 面 运行 tpcc-mysql! 基 
准 测 试 ， 跑 了 一 个 小 时 。 在 这 个 小 时 里 ，/proc/diskstats 报 告 了 
984GB 的 写 入 ， 然 后 Virident 配 置 工具 显示 在 闪存 层 有 1 125GB 的 写 
入 ， 因 此 写 入 放大 因子 是 1.14。 记 住 ， 如 果 设 备 上 消耗 了 更 多 空 
间 ， 这 个 值 会 更 高 ， 并 且 这 个 值 的 浮动 还 基于 写 入 方式 是 顺序 还 是 
随机 。 


在 这 样 的 比率 下 ， 如 果 不 间断 地 跑 一 年 半 的 基准 测试 ， 就 可 以 
用 完 设备 的 寿命 。 当 然 ， 真 实 的 工作 负载 很 少 是 写 密 集 型 的 ， 所 以 
这 个 卡 在 实际 使 用 中 应 该 可 以 持续 工作 很 多 年 。 这 个 观点 不 是 说 该 
设备 将 很 快 磨损 一 一 它 是 说 ， 写 放大 系数 是 很 难 预测 的 ， 需 要 检查 
设备 ， 根 据 工作 量 来 查看 它 的 行为 。 


容量 对 寿命 的 影响 也 很 大 ， 正 如 我 们 已 经 提 到 的 。 更 大 容量 的 
设备 会 使 得 寿命 显著 增长 ， 这 是 为 什么 MLC 越 来 越 流行 
们 看 到 足够 大 的 容量 可 以 延长 寿命 是 有 理由 的 。 


最 近 我 


9.4.3 ”闪存 的 基准 测试 


对 闪存 设备 进行 基准 测试 是 复杂 并 且 困难 的 。 有 很 多 情况 会 导 到 
测试 错误 ， 需 要 了 解 特定 设备 的 知识 ， 并 且 需 要 有 极 大 的 耐心 和 关 
È, 才能 正确 地 操作 。 


闪存 设备 有 一 个 三 阶段 模式 ， 我 们 称 为 A-B-C 性 能 特性 。 它 们 开 
始 阶 段 运 行 非常 快 〔 阶 段 A) ， 然 后 垃圾 回收 器 开始 工作 ， 这 将 导致 
在 一 段 时 间 内 ， 设 备 处 于 过 渡 到 稳定 状态 (MEB) 的 阶段 ， 最 后 设 
备 进入 一 个 稳定 状态 (状态 C) 。 所 有 我 们 测试 过 的 设备 都 有 这 个 特 
点 


NO 


当然 ， 我 们 感 兴 趣 的 是 阶段 C 的 性 能 ， 所 以 基准 测试 只 需要 测量 
这 个 部 分 的 运行 过 程 。 这 意味 着 基准 测试 要 做 的 不 仅仅 是 基准 测试 : 


终点 和 基准 测试 的 起 氮 会 非常 环 手 。 


设备 、 文 件 系 统 ， 以 及 操作 系统 通过 不 同方 式 提供 TRIM 命 令 的 支 
持 ， 这 个 命令 标记 空间 准备 重用 。 有 时 当 删 除 所 有 文件 时 设备 会 被 
TRIM。 如 果 在 基准 测试 运行 的 情况 下 发 生 ， 设 备 将 重 置 到 阶段 A， 然 
后 必须 重新 执行 A 和 B 之 间 的 运行 阶段 。 另 一 个 因素 是 设备 被 填充 得 很 


满 或 者 不 满 时 ， 不 同 的 性 能 表现 。 一 个 可 重复 的 基准 测试 必须 覆 孟 到 
所 有 这 些 因素 。 


通过 上 述 分 析 ， 可 知 基准 测试 的 复杂 性 ， 所 以 束 算 厂商 如 实地 报 
告 测 试 结果 ， 但 对 于 外 行 来 说 ， 广 商 的 基准 测试 和 规格 说 明 书 依然 可 


通常 可 以 从 供应 商 那 得 到 四 个 数字 。 这 里 有 一 个 设备 规格 的 例 


1. 设备 读 取 性 能 最 高 达 520 MB/s。 

2. 设备 写 入 性 能 最 高 达 480 MB/s。 

3. 设备 持续 写 入 速度 可 以 稳定 在 420 MB/s。 
4. 设备 每 秒 可 以 执行 70000 个 4KB 的 写 操作 。 


如 果 再 次 复核 这 些 数 字 ， 你 会 发 现 峰 值 4KB 写 入 达到 70000 个 
IOPS (每 秒 输入 /输出 操作 ) ， 这 么 算 每 秒 写 入 大 约 只 有 274 MB/s， 这 
比 第 二 点 和 第 三 点 中 说 明 的 高 峰 写 入 带宽 少 了 很 多 。 这 是 因为 达到 峰 
值 写 入 带宽 时 是 用 更 大 的 块 ， 例 如 64 KB 或 128 KB。 用 更 小 的 块 大 小 
来 达到 峰值 IOPS。 


大 部 分 应 用 不 会 写 这 么 大 的 块 。 O a EEE R 
要 oye 因此 ， 设 备 应 该 只 有 274MB/s 的 写 出 带 
在 垃圾 回收 器 开启 和 设备 达到 长 期 稳定 ae 


能 等 级 前 ! 


在 我 们 的 博客 中 ， 可 以 找到 目前 的 MySQL 基 准 测试 ， 以 及 在 固态 
硬盘 上 裸 设备 文件 1/O 的 工作 负载 : http:/www.ssdperformanceblog.com 
# http://www.mysqlperformanceblog.come 


9.4.4 ”固态 硬盘 驱动 器 (SSD) 


SSD 模 拟 SATA 硬 盘 驱 动 器 。 这 是 一 个 兼容 性 功能 : BASATA 
盘 不 需要 任何 特殊 的 驱动 程序 或 接口 。 


英特尔 的 X-25E 驱 动 器 可 能 是 我 们 今天 看 到 在 服务 器 中 最 常见 的 
固态 硬盘 ， 但 也 有 很 多 其 他 选择 。X-25E 是 为 “企业 ”级 消费 市 场 开发 
的 ， 但 也 有 用 MLC 存 储 的 X-25M， 这 是 为 笔记 本 电脑 用 户 等 大 众 市 场 
准备 的 。 此 外 ， 英 特 尔 还 销售 320 系 列 ， 也 有 很 多 人 正在 使 用 。 再 次 ， 
这 仅仅 是 一 个 供应 商 一 一 还 有 很 多 ， 在 这 本 书 去 印刷 的 时 候 ， 我 们 所 
与 的 关于 SSD 的 一 些 东 西 可 能 已 经 过 时 。 


天 于 SSD 的 好 处 是 ， 它 们 有 大 量 的 品牌 和 型 号 相对 是 比较 便宜 
的 ， 同 时 它们 比 硬盘 快 了 很 多 。 最 大 的 缺点 是 ， 它 们 并 不 总 是 像 硬 盘 
一 样 可 靠 ， 这 取决 于 品牌 和 型 写 。 和 直到 最 近 ， 大 多 数 设 备 都 没有 板 载 
电池 ， 但 大 多 数 设 备 上 有 一 个 与 缓存 来 组 冲 写 入 。 写 入 缓存 在 没有 电 
闻 备 份 的 情况 下 并 不 能 持久 化 ， 但 是 在 快速 增长 的 写 负 载 下 ， 它 不 能 
关闭 ， 否 则 闪存 存储 无 法 承受 。 所 以 ， 如 果 禁 用 了 驱动 器 的 高 速 缓存 
以 获得 真正 持久 化 的 存储 ， 将 会 更 快 地 耗 完 设备 寿命 ， 在 某 些 情况 
下 ， 这 将 导致 保修 失效 。 


有 些 厂 家 完全 不 急于 告诉 购买 他 们 固态 硬盘 的 客户 关于 SSD 的 特 
点 ， 并 且 他 们 对 设备 的 内 部 架构 等 细节 守 口 如 瓶 。 是 否 有 电池 或 电容 
保护 写 缓存 的 数据 安全 ， 在 电源 故障 的 情况 下 ， 通 常 是 一 个 悬而未决 
的 问题 。 在 某 些 情况 下 ， 驱 动 器 会 接受 禁用 缓存 的 命令 ， 但 忽略 了 
它 。 所 以 ， 除 非 做 过 崩溃 试验 ， 否 则 真 的 有 可 能 不 知道 驱动 器 是 否 是 
持久 化 的 ， 我 们 对 一 些 驱动 器 进行 了 月 并 测试 ， 发 现 了 不 同 的 结果 。 


如 今 ， 一些 驱 动 器 有 电容 器 保护 缓存 ， 使 其 可 以 持久 化 ， 但 一 般 来 
说 ， 如 果 驱 动 器 不 是 自 硅 有 一 个 电 闻 或 电容 ， 那 么 它 就 没有 。 这 意味 
着 在 断 电 的 情况 下 不 是 持久 化 的 ， 所 以 可 能 出 现 数据 已 经 损坏 却 还 不 
知情 的 情况 。SSD 是 否 配 置 电 容 或 电 闻 是 我 们 必须 关注 的 特性 。 


通常 ， 使 用 SSD 都 是 值得 的 。 但 底层 技术 的 挑战 是 不 容易 解决 
的 。 很 多 厂家 做 出 的 驱动 器 在 高 负载 下 很 快 就 明江 了 ， 或 不 提供 持续 
一 致 的 性 能 。 一 些 低 端的 制造 商 有 一 个 习惯 ， 每 次 发 布 新 一 代 驱 动 
器 ， 就 声称 他 们 已 经 解决 了 老 一 代 的 所 有 问题 。 这 往往 是 不 真实 的 ， 
当然 ， 如 果 关心 可 靠 性 和 持续 的 高 性 能 , “企业 级 ”的 设备 通 单 值得 它 
的 价钱 。 


用 SSD 做 RAID 


我 们 建议 对 SATA SSD # f$ FA RAID (Redundant Array of 
Inexpensive Disks, WRT RII) 。 单 一 驱动 器 的 数据 安全 是 无 法 让 
人 信服 的 。 


许多 旧 的 RAID 控 制 器 并 不 支持 SSD。 因 为 它们 假设 管理 的 是 机 械 
硬盘 ， 包 括 写 缓 冲 和 写 排序 这 些 特性 都 是 为 机 械 硬盘 而 设计 的 。 这 不 
但 纯 属 无 效 工 作 ， 也 会 增加 响应 时 间 ， 因 为 SSD 暴 露 的 逻辑 位 置 会 被 
映射 到 底层 闪存 记忆 体 中 的 任意 位 置 。 现 在 这 种 情况 好 一 点 。 有 些 
RAID 控 制 器 的 型 号 未 尾 有 一 个 字母 ， 表 明 它 们 是 为 SSD 做 了 准备 的 。 
例如 ， Adaptec 控 制 器 用 Z 标 识 。 


然而 ， 即 使 支持 闪存 的 控制 器 ， 也 不 一 定 真 的 就 对 闪存 支持 很 
好 。 例 如 ，Vadim 对 Adaptec 5805Z 控 制 器 进行 了 基准 测试 ， 他 用 了 多 


种 驱动 器 做 RAID 10，16 个 并 发 操作 500 GBA. AR ERIE 
BY: 95% 的 随机 写 延 迟 在 两 位 数 的 毫秒 ， 在 最 坏 的 情况 下 ， 超 过 一 秒 
PhO, (期 望 的 应 该 是 亚 毫秒 级 写 入 。) 


这 种 特定 的 比较 ， 是 一 家 客户 为 了 看 到 Micron SSD 是 否 会 比 64GB 
的 Intel SSD 更 好 而 做 的 ， 该 比较 是 基于 相同 的 配置 的 。 当 为 英特尔 驱 
动 器 进行 基准 测试 时 ， 我 们 发 现 了 相同 的 性 能 特征 。 因 此 ， 我 们 尝试 
了 一 些 其 他 驱动 器 的 配置 ， 不 管 有 没有 SAS 扩 展 器 ， 看 看 会 发 生 什 
么 。 表 9-1 显 示 了 这 个 结果 。 


表 9-1: 在 Adaptec RAID 控 制 器 上 用 SSD 进 行 的 基准 测试 


驱动 器 数量 ”厂家 大 小 SAS 扩 展 器 ”随机 读 随机 与 

34 Intel 64 GB Yes 310 MB/s 130 MB/s 
14 Intel 64 GB Yes 305 MB/s 145 MB/s 
24 Micron 50GB No 350 MB/s 120 MB/s 
34 Intel 50 GB No 350 MB/s 180 MB/s 


这 些 结果 都 没有 达到 我 们 对 这 么 多 驱动 器 的 期 望 。 在 一 般 情况 
下 ，RAID 控 制 器 的 性 能 表现 ， 只 能 满足 对 6 一 8 个 驱动 器 的 期 望 ， 而 不 
是 几 十 个 。 原 因 很 简单 ，RAID 控 制 器 达到 了 瓶颈 。 这 个 故事 的 重点 
是 ， 在 对 硬件 投入 巨 资 前 ， 应 该 先 仔细 进行 基准 测试 一 一 结果 可 能 生 
期 望 的 有 相当 大 的 区 别 。 


9.4.5 ” PCIe 存储 设备 


相对 于 SATA SSD，PCIe 设 备 没有 尝试 模拟 硬盘 驱动 器 。 这 种 设计 
是 好 事 : 服务 器 和 硬盘 驱动 器 之 间 的 接口 不 能 完全 发 挥 闪存 的 性 能 。 


SAS/SATA 互 联 带 宽 比 PCIe 要 低 ， 所 以 PCIe 对 高 性 能 需求 是 更 好 的 选 
择 。PCIe 设 备 延 迟 也 低 得 多 ， 因 为 它们 在 物理 上 更 靠近 CPU。 


没有 什么 比 得 上 从 PCIe 设 备 上 获得 的 性 能 。 缺 点 就 是 它们 太 贵 
了 。 


所 有 我 们 熟悉 的 型 号 都 需要 一 个 特殊 的 驱动 程序 来 创建 块 设 备 ， 
让 操作 系统 把 它 认 成 一 个 硬盘 驱动 器 。 这 些 驱 动 程序 使 用 着 混合 磨损 
均衡 和 其 他 逻辑 的 策略 ; 有 些 使 用 主机 系统 的 CPU 和 内 存 ， 有 些 使 用 
板 载 的 逻辑 控制 器 和 RAM (A) 。 在 许多 场景 下 ， 主 机 系统 有 丰富 
的 CPU 和 RAM 资 源 ， 所 以 相对 于 购买 一 个 自身 有 这 些 资 源 的 卡 ， 利 用 
主机 上 的 资源 实际 上 是 更 划算 的 策略 。 


我 们 不 建议 对 PCIe 设 备 建 RAID。 它 们 用 RAID 就 太 昂 贵 了 ， 并 和 且 
大 部 分 设备 无 论 以 何 种 方式 ， 都 有 它们 自己 板 载 的 RAID。 我 们 并 不 真 
的 知道 控制 器 坏 了 以 后 会 怎么 样 ， 但 是 厂商 说 他 们 的 控制 器 通常 跟 网 
卡 或 者 RAID 控 制 器 一 样 好 ， 看 起 来 确实 是 这 样 。 换 句 话说 ， 这 些 设备 
的 平均 无 故障 时 间 间 隔 (MTBF) 接近 于 主板 ， 所 以 对 这 些 设备 使 用 
RAID 只 是 增加 了 大 量 成 本 而 没有 多 少 好 处 。 


有 许多 家 供应 商 在 生产 PCIe 闪 存 卡 。 对 MySQL 用 户 来 说 最 著名 的 
厂商 是 Fusion-io 和 Virident， 但 是 像 Texas Memory Systems、STEC 和 
OCZ 这 样 的 厂商 也 有 用 户 。SLC 和 MLC 都 有 相应 的 PCIe 卡 产品 。 


9.46 ”其 他 类 型 的 固态 存储 


除了 SSD 和 了 PCIe 设备 ， 也 有 其 他 公司 的 产品 可 以 选择 ， 例 如 Violin 
Memory, SandForce# Texas Memory Systems. 这 些 公 司 提 供 有 几 十 
TB 存储 容量 ， 本 质 上 是 闪存 SAN 的 大 箱子 。 它 们 主要 用 于 大 型 数据 中 
心 存 储 的 整合 。 虽 然 价格 非常 昂贵 ， 但 是 性 能 也 非常 高 。 我 们 知道 一 
些 使 用 的 例子 ， 并 在 某 些 场景 下 测量 过 性 能 。 这 些 设备 能 够 提供 相当 
好 的 延迟 ， 除 了 网 络 往返 时 间 例如 ， 通 过 NFS 有 小 于 4 毫秒 的 延 


Ro 


然而 这 些 都 不 适合 一 般 的 MySQL 市 场 。 它 们 的 目标 更 针对 其 他 数 
据 库 ， 如 Oracle， 可 以 用 来 做 共享 存储 集群 。 一 般 情况 下 ，MySQL 在 
如 此 大 规模 的 场景 下 ， 不 能 有 效 利用 如 此 强大 的 存储 优势 ， 因 为 在 数 
十 个 TB 的 数据 下 MySQL 很 难 良好 地 工作 一 一 MySQL 对 这 样 一 个 庞大 
的 数据 库 的 回答 是 ， 拆 分 、 横 向 扩展 和 无 共享 (Shared-nothing) 架 
构 。 


虽然 专业 化 的 解决 方案 可 能 能 够 利用 这 些 大 型 存储 设备 一 一 例如 
Infobright 可 能 成 为 候选 人 。ScaleDB 可 以 部 署 在 共享 存储 (Shared- 
storage) 架构 ， 但 我 们 还 没有 看 到 它 在 生产 环境 应 用 ， 所 以 我 们 不 知 
道 其 工作 得 如 何 。 


9.4.7 ”什么 时 候 应 该 使 用 闪存 


固态 存储 最 适合 使 用 在 任何 有 着 大 量 随 机 MO 工作 负载 的 场景 下 。 
随机 WO 通常 是 由 于 数据 大 于 服务 器 的 内 存 导 致 的 。 用 标准 的 硬盘 驱动 
器 ， 受 限于 转速 和 寻 道 延迟 ， 无 法 提供 很 高 的 IOPS。 闪 存 设备 可 以 大 
大 缓解 这 种 问题 。 


当然 ， 有 时 可 以 简单 地 购买 更 多 内 存 ， 这 样 随机 工作 负载 就 可 以 
转移 到 内 存 ，1/O 束 不 存在 了 。 但 是 当 无 法 购买 足够 的 内 存 时 ， 闪 存 也 
可 以 提供 帮助 。 另 一 个 不 能 总 是 用 内 人 存 解决 的 问题 是 ， 高 吞吐 的 写 入 
负载 。 增 加 内 存 只 能 帮助 减少 写 入 负载 到 磁盘 ， 因 为 更 多 的 内 存 能 创 
造 更 多 的 机 会 来 缓冲 、 合 并 写 。 这 人 允许 把 随机 写 转 换 为 更 加 顺序 的 
LOo。 


然而 ， 这 并 不 能 无 限 地 工作 下 去 ， 一 些 事务 或 插入 繁忙 的 工作 负 
载 不 能 从 这 种 方法 中 获 益 。 闪 存 存 储 在 这 种 情况 下 却 也 有 帮助 。 


单线 程 工作 负载 是 另 一 个 内 存 的 潜在 应 用 场景 。 当 工作 负载 是 单 
线程 的 时 候 ， 它 是 对 延迟 非常 敏感 的 ， 固 态 存储 更 低 的 延迟 可 以 融 来 
很 大 的 区 别 。 相 反 ， 多 线程 工作 负载 通常 可 以 简单 地 加 大 并 行 化 程度 
以 获得 更 高 的 吞吐 量 。MySQL 复 制 是 单线 程 工作 的 典型 例子 ， 它 可 以 
从 低 延 迟 中 获得 很 多 收益 。 在 备 库 跟 不 上 主 库 时 ， 使 用 内 存 人 存储 往往 
可 以 显著 提高 其 性 能 。 


闪存 也 可 以 为 服务 器 整合 提供 巨大 的 帮助 ， 尤 其 是 PCIe 方 式 的 。 
我 们 已 经 看 到 了 机 会 ， 把 很 多 实例 整合 到 一 台 物 理 服务 器 一 一 有 时 高 
达 10 或 15 倍 的 整合 都 是 可 能 的 。 更 多 关于 这 个 话题 的 信息 ， 请 参见 第 
11 章 。 


然而 内 存 也 可 能 不 一 定 是 你 要 的 答案 。 一 个 很 好 的 例子 是 ， 像 
InnoDB 日 志文 件 这 样 的 顺序 写 的 工作 负载 ， 闪 存 不 能 提供 多 少 成 本 与 
性 能 优势 ， 因 为 在 这 种 情况 下 ， 闪 存 连 续 写 方面 不 比 标准 硬盘 快 多 
少 。 这 样 的 工作 负载 也 是 高 吞吐 的 ， 会 更 快 耗 尽 内 存 的 寿命 。 在 标准 
硬盘 上 存放 日 志文 件 通常 是 一 个 更 好 的 主意 ， 用 具有 电池 保护 写 缓存 
的 RAID 控 制 器 。 


有 时 答案 在 于 内 存 /磁盘 的 比例 ， 而 不 只 是 磁盘 。 如 果 可 以 买 足够 
的 内 存 来 缓存 工作 负载 ， 就 会 发 现 这 更 便宜 ， 并 且 比 购买 闪存 存储 设 
备 更 有 效 。 


9.4.8 ”使 用 Flashcache 


里 然 有 很 多 因素 需要 在 内存、 硬盘 和 RAM 之 间 权 衡 ， 在 存储 层次 
结构 中 ， 这 些 设备 没有 被 当 作 一 个 整体 处 理 。 有 时 可 以 使 用 磁盘 和 内 
存 技术 的 结合 ， 这 就 是 Flashcache。 


Flashcache 是 这 种 技术 的 一 个 实现 ， 可 以 在 许多 系统 上 发 现 类 似 的 
使 用 ， 例 如 Oracle 数 据 库 、ZFS 文 件 系统 ， 甚 至 许多 现代 的 硬盘 驱动 器 
和 RAID 控 制 器 。 下 面 讨论 的 许多 东西 应 用 广泛 ， 但 我 们 将 只 专注 于 
Flashcache， 因 为 它 和 厂商 、 文 件 系统 无 关 。 


Flashcache 是 一 个 Linux 内核 模 块 ， 使 用 Linux 的 设备 映射 器 
(Device Mapper) 。 它 在 内 存 和 磁盘 之 间 创 建 了 一 个 中 间 层 。 这 是 
Facebook 开 产 和 使 用 的 技术 之 一 ， 可 以 帮助 其 优化 数据 库 负 载 。 


Flashcache 创 建 了 一 个 块 设备 ， 并 且 可 以 被 分 区 ， 也 可 以 像 其 他 块 
设备 一 样 创建 文件 系统 ， 特 点 是 这 个 块 设备 是 由 闪存 和 磁盘 共同 支撑 
的 。 闪 存 设 备用 作 读 取 和 写 入 的 智能 高 速 缓存 。 


虚拟 块 设备 远 比 内 存 设 备 要 大 ,但 是 没关系， 因为 数据 最 终 都 存 
储 在 磁盘 上 。 闪 存 设备 只 是 去 缓冲 写 入 和 缓存 读 取 ， 有 效 弥 补 了 服务 
器 内 存 容量 的 不 足 ( 内 。 


这 种 性 能 有 多 好 呢 ? Flashcache 似 乎 有 相对 较 高 的 内 核 开 销 。 ( 设 
备 映射 并 不 总 是 像 看 起 来 那么 有 效 ， 但 我 们 还 没 深 入 调查 找 出 原 
因 。) 但 是 ， 尽 管 Flashcache 理 论 上 可 能 更 高 效 ， 但 最 终 的 性 能 表现 并 
不 如 底层 的 闪存 存储 那么 好 ， 不 过 它 仍 然 比 磁盘 快 很 多 ， 所 以 还 是 值 
得 考虑 的 方案 。 


我 们 用 包含 数 百 个 基准 测试 的 一 系列 测试 来 评估 Flashcache 的 性 
能 ， 但 是 我 们 发 现在 人 工 模拟 的 工作 负载 下 ， 测 出 有 意义 的 数据 是 非 
常 困 难 的 。 于 是 我 们 得 出 结论 ， 虽 然 并 不 清楚 Flashcache 通 常 对 写 负载 
有 多 大 好 处 ， 但 是 对 读 肯 定 是 有 帮助 的 。 于 是 它 适合 这 样 的 情况 使 
用 : 有 大 量 的 读 MO， 并 且 工 作 集 比 内 存 大 得 多 。 


除了 实验 室 测 试 ， 我 们 有 一 些 生产 环境 中 应 用 Flashcache 的 经 验 。 
想到 的 一 个 例子 是 ， 有 个 4TB 的 数据 库 ， 这 个 数据 库 遇 到 了 很 大 的 复 
制 延 迟 。 我 们 给 系统 加 了 半 个 TB 的 Virident PCIe 卡 作为 存储 。 然 后 安 
装 了 Flashcache， 并 且 把 PCIe 卡 作为 绑 定 设 备 的 闪存 部 分 ， 复 制 速度 就 
翻 了 一 倍 。 


当 闪 存 卡 用 得 很 满 时 使 用 Flashcache 是 最 经 济 的 ， 因 此 选择 一 张 写 
得 很 满 时 其 性 能 不 会 降低 多 少 的 卡 非常 重要 。 这 就 是 为 什么 我 们 选择 
Virident 卡 。 


Flashcache 就 是 一 个 缓存 系统 ， 所 以 就 像 任何 其 他 缓存 一 样 ， 它 也 


有 预 热 问题 。 虽 然 预 热 时 间 可 能 会 非 党 长。 例如， 在 我 们 刚才 提 到 的 
情况 下 ，Flashcache 需 要 一 个 星期 的 预 热 ， 才 能 真正 对 性 能 产生 帮助 。 


应 该 使 用 Flashcache 吗 ? 根据 具体 情况 可 能 会 有 所 不 同 ， 所 以 我 们 
认为 在 这 一 点 上 ， 如 果 你 觉得 不 确定 ， 最 好 得 到 专家 的 意见 。 理 解 


Flashcache 的 机 制 和 它们 如 何 影 响 你 的 数据 库 工作 集 大 小 是 很 复杂 的 ， 
在 数据 库 下 层 (至 少 ) 有 三 层 存 储 : 


。 首先 ， 是 InnoDB 绥 冲 池 ， 它 的 大 小 跟 工 作 集 大 小 一 起 可 以 决定 组 
存 的 命中 率 。 缓 存 命中 是 非常 快 的， 响应 时 间 非 常 均匀 。 

。 在 缓冲 池 中 没有 命中 ， 就 会 到 Flashcache 设 备 上 去 取 ， 这 就 会 产生 
分 布 比较 复杂 的 响应 时 间 。Flashcache 的 缓存 命中 率 由 工作 集 大 小 
和 闪存 设备 大 小 决定 。 从 闪存 上 命中 比 在 磁盘 上 查找 要 快 得 多 。 

。 Flashcache 设 备 缓存 也 没有 命中 ， 那 就 得 到 磁盘 上 找 ， 这 也 会 看 到 
分 布 相 当 均 匀 的 比较 慢 的 响应 时 间 。 


有 可 能 还 有 更 多 层次 : 例如 ，SAN 或 RAID 控 制 器 的 缓存 。 


这 有 一 个 思维 实验 ， 说 明 这 些 层 是 如 何 交 互 的 。 很 显然 ， 从 
Flashcache 设 备 访问 的 响应 时 间 不 会 像 直 接 访问 闪存 设备 那么 稳定 和 高 
速 。 但 是 想象 一 下 ， 假 设 有 1TB 的 数据 ， 其 中 100 GB 在 很 长 一 段 时 间 
会 承受 99% 的 MO 操作 。 也 就 是 说 ， 大 部 分 时 候 99% 的 工作 集 只 有 100 
GB。 


现在 ， 假 设 有 以 下 的 存储 设备 : 一 个 很 大 的 RAID 卷 ， 可 以 执行 
1000 IOPS， 以 及 一 个 可 以 达到 100000 IOPS 的 更 小 的 闪存 设备 。 闪 存 
设备 不 足以 存放 所 有 的 数据 一 一 假设 只 有 128 GB 一 一 因此 单独 使 用 闪 
存 不 是 一 种 可 能 的 选择 。 如 果 用 闪存 设备 做 Flashcache， 就 可 以 期 望 缓 
存 命中 远 远 快 于 磁盘 检索 ， 但 Flashcache 整 体 比 单独 使 用 闪存 设备 要 
慢 。 我 们 坚持 用 数字 说 话 ， 如 果 90% 的 请 求 落 到 Flashcache 设 备 ， 相 当 
于 达到 50000 IOPS。 这 个 思维 实验 的 结果 是 什么 呢 ? 有 两 个 要 点 : 


1. 系统 使 用 Flashcache 比 不 使 用 的 性 能 要 好 很 多 ， 因 为 大 多 数 在 缓冲 
池 未 命中 的 页 面 访问 都 被 缓存 在 闪存 卡 上 ， 相 对 于 磁盘 可 以 提供 
快 得 多 的 访问 速度 。 (99% 的 工作 集 可 以 完全 放 在 闪存 卡 上 。 ) 
Flashcache 设 备 上 有 90% 的 命中 率 意味 着 有 10% 没 有 命中 。 因 为 底 
层 的 磁盘 只 能 提供 1000 IOPS， 因 此 整个 Flashcache 设 备 可 以 支持 
10000 的 IOPS。 为 了 明白 为 什么 是 这 样 的， 想象 一 下 如 果 我 们 要 
求 不 止 于 此 会 发 生 什 么 : 10% 的 WO 操作 在 缓存 中 没有 命中 而 落 到 
了 RAID 卷 上 ， 则 肯定 要 求 RAID 卷 提供 超过 1000 IOPS， 很 显然 是 
没 法 处 理 的 。 因 此 ， 即 使 Flashcache 比 闪存 卡 慢 ， 系 统 作 为 一 个 整 
体 仍 然 受 限于 RAID 卷 ， 不 止 是 闪存 卡 或 Flashcache。 


I 


归根 到 底 ，Flashcache 是 否 合适 是 一 个 复杂 的 决定 ， 涉 及 的 因素 很 
多 。 一 般 情 况 下 ， 它 似乎 最 适合 以 读 为 主 的 1/O 密 集 型 负载 ， 并 且 工 作 
集 太 大 ， 用 内 存 优化 并 不 经 济 的 情况 。 


9.4.9 ”优化 固态 存储 上 的 MySQL 


如 果 在 闪存 上 运行 MySQL， 有 一 些 配置 参数 可 以 提供 更 好 的 性 
能 。InnoDB 的 默认 配置 从 实践 来 看 是 为 硬盘 驱动 器 定制 的 ， 而 不 是 为 
固态 硬盘 定制 的 。 不 是 所 有 版 本 的 InnoDB 都 提供 同样 等 级 的 可 配置 
性 。 尤 其 是 很 多 为 提升 内 存 性 能 设计 的 参数 首先 出 现在 Percona Server 
中 ， 尽 管 这 些 参数 很 多 已 经 在 Oracle 版 本 的 InnoDB 中 实现 ， 或 者 计划 
在 未 来 的 版 本 中 实现 。 


改进 包括 : 


增加 InnoDB 的 VO 容量 


闪存 比 机 械 硬 盘 支持 更 高 的 并 发 量 ， 所 以 可 以 增加 读 写 O 线 
程 数 到 10 或 15 来 获得 更 好 的 结果 。 也 可 以 在 2000 一 20000 学 围 内 调 
整 innodb io_capacity 选 项 ， 这 要 看 设备 实际 上 能 支撑 多 大 的 
IOPS。 尤 其 是 对 Oracle 官 方 的 mnoDB 这 个 很 有 必要 ， 内 部 有 更 多 
算法 依赖 于 这 个 设置 。 


让 InnoDB 日 志文 件 更 大 


即使 最 近 版 本 的 ImnoDB 中 改进 了 骨 溃 恢复 算法 ， 也 不 应 该 把 
磁盘 上 的 日 志文 件 调 得 太 大 ， 因 为 骨 冲 恢复 时 需要 随机 IO 访问 ， 

致 恢复 需要 很 长 一 段 时 间 。 闪 存 存 储 让 这 个 过 程 快 很 多 ， 所 
以 可 以 设置 更 大 的 InnoDB 日 志文 件 ， 以 帮助 提升 和 稳定 性 能 。 对 
于 Oracle 官 方 的 InnoDB， 这 个 设置 尤其 重要 ， 它 维持 一 个 持续 的 
脏 页 刷新 比例 有 点 麻烦 ， ee 
更 大 的 日 志文 件 ， 在 写 的 时 候 对 服务 器 来 说 是 个 不 错 的 选择 。 
Percona Server#l MySQL 5.6 支 持 大 于 4GB 的 日 


把 一 些 文件 从 闪存 转移 到 RAID 


除了 把 mmnoDB 日 志文 件 设置 得 更 大 ， 把 日 志文 件 从 数据 文件 

中 拿 出 来 ， 单 独 放 在 一 个 带 有 电池 保护 写 缓存 的 RAID 组 上 而 不 是 
固态 设备 上 ， 也 是 个 好 主意 。 这 么 做 有 几 个 原因 。 一 个 原因 是 日 
志文 件 的 TO 类 型 ， 在 闪存 设备 上 不 比 在 这 样 一 个 RAID 组 上 要 
快 。InnoDB 写 日 志 是 以 512 字 节 为 单位 的 顺序 1/O 写 下 去 ， 并 且 除 
了 朋 演 恢复 会 顺序 读 取 ， 其 他 时 候 绝 不 会 去 读 。 这 样 的 1/O 操 作 类 
型 用 闪存 设备 是 很 浪费 的 。 并 且 把 小 的 写 入 操作 从 闪存 转移 到 
RAID 卷 也 是 个 好 主意 ， 因 为 很 小 的 写 入 会 增加 闪存 设备 的 写 放 大 


因子 ， 会 影响 一 些 设备 的 使 用 寿命 。 大 小 写 操作 混合 到 一 起 也 会 
引起 某 些 设备 延 时 的 增加 。 


基于 相同 的 原因 ， 有 时 把 二 进 制 日 志文 件 转移 到 RAID 卷 也 会 

有 好 处 。 并 且 你 可 能 会 认为 ibdatal 文 件 也 适合 放 在 RAID 卷 上 ， 

A ibdatal 文件 包含 双 写 缓冲 (Doublewrite Buffer) 和 插入 缓冲 

(Insert Buffer) ， 尤 其 是 双 写 缓冲 会 进行 很 多 重复 写 入 。 在 

Percona Server 中 ， 可 以 把 双 写 缓冲 从 ibdatal 文件 中 拿 出 来 ， 单 独 
存放 到 一 个 文件 ， 然 后 把 这 个 文件 放 在 RAID 卷 上 。 


还 有 另 一 个 选择 : 可 以 利用 Percona Server 的 特性 ， 使 用 4KB 
的 块 写 事务 日 志 ， 而 不 是 512 字 节 。 因 为 这 会 匹配 大 部 分 闪存 本 身 
的 块 大 小 ， 所 以 可 以 获得 更 好 的 效果 。 所 有 的 上 述 建 议 是 对 特定 
硬件 而 言 的 ， 实 际 操 作 的 时 候 可 能 会 有 所 不 同 ， 所 以 在 大 规模 改 
动 存储 布局 之 前 要 确保 已 经 理解 相关 的 因素 一 一 并 辅 以 适当 的 测 
试 。 


RAMZ 


预 读 通过 通知 和 预测 读 取 模 陈 来 优化 设备 的 访问 ， 一 旦 认为 
某 些 数据 在 未 来 需要 被 访问 到 ， 就 会 从 设备 上 读 取 这 些 数 据 。 实 
际 上 在 InnoDB 中 有 两 种 类 型 的 预 谈 ， 我 们 发 现在 多 种 情况 下 的 性 
能 问题 ， 其 实 都 是 预 读 以 及 它 的 内 部 工作 方式 造成 的 。 在 许多 情 
况 下 开销 比 收益 大 ， 尤 其 是 在 内 存 存 储 ， 但 我 们 没有 确 赣 的 证 据 


或 指导 ， 禁 用 预 读 究 竟 可 以 提高 多 少 性 能 。 


在 MySQL 5.1 的 InnoDB Plugin 中 ，MySQL 禁 用 了 所 谓 的 “ 随 
机 预 读 "， 然 后 在 MySQL 5.5 又 重新 启用 了 它 ， 可 以 在 配置 文件 用 


一 个 参数 配置 。Percona Server 能 让 你 在 旧版 本 里 也 一 样 可 以 配置 
为 random (随机 ) 或 linear read-ahead (线性 预 读 ) o 


配置 InnoDB 刷 新 算法 


这 决定 InnoDB 什 么 时 候 、 刷 新 多 少 、 刷 新 哪些 页 面 ， 这 是 个 
非常 复杂 的 主题 ， 这 里 我 们 没有 足够 的 篇 幅 来 讨论 这 些 具体 的 细 
节 。 这 也 是 个 研究 比较 活跃 的 主题 ， 并 且 实 际 上 在 不 同 版 本 的 
InnoDB 和 MySQL 中 有 多 种 有 效 的 算法 。 


标准 InnoDB 算 法 没有 为 内 人 存 人 存储 提供 多 少 可 配置 性 ， 但 是 如 
果 用 的 是 Percona XtraDB (包含 在 Percona Server 和 MariaDB 中 ) ， 
我 们 建议 设置 innodb_adaptive_checkpoint 选 项 为 keep_average， 不 
要 用 默认 值 estimate。 这 可 以 确保 更 持续 的 性 能 ， 并 且 避 免 服务 器 
拌 动 ， 因 为 estimate 算 法 会 在 闪存 存储 上 3 引起 拌 动 。 我 们 专门 为 内 
存 存储 开发 了 keep_average， 因 为 我 们 意识 到 对 于 闪存 设备 ， 把 希 
望 操作 的 大 量 IO 推 到 设备 上 ， 并 不 会 引起 瓶颈 或 友 生 抖动 。 


另外 ， 建 议 为 内 存 设 备 设 置 innodb_flush_neighbor_pages=0。 
这 样 可 以 避免 nnoDB 尝 试 查找 相 邻 的 脏 页 一 起 刷 写 。 这 个 算法 可 
能 会 导致 更 大 块 的 号、 更 高 的 延迟 ， 以 及 内 部 竞争 。 在 闪存 存储 
上 这 完全 没 必 要 ， 也 不 会 有 什么 收益 ， 因 为 相 邻 的 页 面 单独 刷新 
不 会 冲击 性 能 。 


禁用 双 瑟 缓冲 的 可 能 


相对 于 把 双 写 缓存 转移 到 闪存 设备 ， 可 以 考虑 直接 关闭 它 。 
有 些 厂 商 声 称 他 们 的 设备 支持 16KB 的 原子 写 入 ， 使 得 双 写 缓冲 成 


为 多 余 的 。 如 果 需 要 确保 整个 存储 系统 被 配置 得 可 以 支持 16KB 的 
原子 写 入 ， 通 常 需 要 O_DIRECT 和 XFS 文 件 系 统 。 


没有 确 疼 的 证 据 表 明 原 子 操作 的 说 法 是 真实 的 ， 但 由 于 闪存 
存储 的 工作 方式 ， 我 们 相信 和 写 数 据 文件 发 生 页 面 写 一 部 分 的 情况 
是 大 大 减少 的 ， 并 且 这 个 收益 在 内 存 设 备 上 比 在 传统 磁盘 上 要 高 
得 多 ， 禁 用 双 写 缓冲 在 闪存 存储 上 可 以 提高 MySQL 整 体 性 能 差 不 
多 50%， 尽 管 我 们 不 知道 这 是 不 是 100% 安 全 的 ， 但 是 你 可 以 考虑 
下 这 么 做 。 


限制 插入 缓冲 大 小 


插入 缓冲 (在 新 版 InnoDB 中 称 为 变更 缓冲 (Change 
Buffer) ) 设计 来 用 于 减少 当 更 新 行 时 不 在 内 存 中 的 非 唯一 索引 
引起 的 随机 VO。 在 硬盘 驱动 器 上 ， 减 少 随 机 1/O 可 以 带 来 巨大 的 
性 能 提升 。 对 某 些 类 型 的 工作 负载 ， 当 工作 集 比 内 存 大 很 多 时 ， 
差异 可 能 达到 近 两 个 数量 级 。 插 入 缓冲 在 这 类 场景 下 就 很 有 用 。 


然而 ， 对 闪存 就 没有 必要 了 。 闪 存 上 随机 WO 非常 快 ， 所 以 即 
使 完全 禁用 插入 缓冲 ， 也 不 会 带 来 太 大 影响 ， 尽 管 如 此 ， 可 能 你 
也 不 想 完全 禁用 插入 缓存 。 所 以 最 好 还 是 启用 ， 因 为 VO 只 是 修改 
不 在 内 存 中 的 索引 页 面 的 开销 的 一 部 分 。 对 闪存 设备 而 言 ， 最 重 
要 的 配置 是 控制 最 大 允许 的 插入 缓冲 大 小 ， 可 以 限制 为 一 个 相对 
比较 小 的 值 ， 而 不 是 让 它 无 限制 地 增长 ， 这 可 以 避免 消耗 设备 上 
的 大 量 空间 ， 并 避免 ibdatal 文 件 变 得 非常 大 的 情况 。 在 本 书写 作 
的 时 候 ， 标 准 InnoDB 还 不 能 配置 插入 缓存 的 容量 上 限 ， 但 是 在 
Percona XtraDB (Percona Server 和 MariaDB 都 包含 XtraDB) 里 可 
Llo MySQL 5.6 里 也 会 增加 一 个 类 似 的 变量 。 


除了 上 述 的 配置 建议 ， 我 们 还 提出 或 讨论 了 其 他 一 些 闪存 优化 策 
略 。 然 而 ， 不 是 所 有 的 策略 都 非常 容易 明白 ， 所 以 我 们 只 是 提 到 了 一 
部 分 ， 最 好 自己 研究 在 具体 情况 下 的 好 处 。 首 先是 InnoDB 的 页 大 小 。 
我 们 发 现 了 不 同 的 结果 ， 所 以 我 们 现在 还 没有 一 个 明确 的 建议 。 好 消 
息 是 ， 在 Percona Server 中 不 需要 重 编译 也 能 配置 页 面 大 小 ， 在 MySQL 
5.6 中 这 个 功能 也 可 能 实现 。 以 前 版 本 的 MySQL 需 要 重新 编译 服务 器 才 
能 使 用 不 同 大 小 的 页 面 ， 所 以 大 部 分 情况 都 是 运行 在 默认 的 16KB 页 
面 。 当 页 面 大 小 更 容易 让 更 多 人 进行 实验 时 ， 我 们 期 待 更 多 非 标准 页 
面 大 小 的 测试 ， 可 能 能 从 中 得 到 很 多 重要 的 结论 。 


另 一 个 提 到 的 优化 是 mnoDB 页 面 校 验 (Checksum) 的 替代 算法 。 
当 存 储 系统 响应 很 快 时 ， 校 验 值 计 算 可 能 开始 成 为 TO 相关 操作 中 显著 
影响 时 间 的 因素 ， 并 且 对 某 些 人 来 说 这 个 计算 可 能 替代 IO 成 为 新 的 瓶 
颈 。 我 们 的 基准 测试 还 没有 得 出 可 适用 于 普遍 场景 的 结论 ， 所 以 每 个 
人 的 情况 可 能 有 所 不 同 。Percona XtraDB 人 允许 修改 校 验算 法 ，MySQL 
5.6 也 有 了 这 个 功能 。 


可 能 已 经 提醒 过 了 ， 我 们 提 到 的 很 多 功能 和 优化 在 标准 版 本 的 
InnoDB 中 是 无 效 的 。 我 们 希望 并 且 相 信 我 们 引入 Percona Server 和 
XtraDB 中 的 改进 点 ， 最 终 将 会 被 广大 用 户 接 受 。 与 此 同时 ， 如 果 正 使 
用 Oracle 官 方 MySQL 分 发 版 本 ， 依 然 可 以 对 服务 器 采取 措施 为 闪存 进 
行 优化 。 建 议 使 用 innodb_file_per_table， 并 且 把 数据 文件 目录 放 到 闪 
存 设备 。 然 后 移动 ibdatal1 和 日 志文 件 ， 以 及 其 他 所 有 日 志文 件 (二 进 
制 日 志 、 复 制 日 志 ， 等 等 ) ， 到 RAID 卷 ， 正 如 我 们 之 前 讨论 的 。 这 会 
把 随机 LO 集中 到 闪存 设备 上 ， 然 后 把 大 部 分 顺序 写 入 的 压力 尽 可 能 转 
移出 闪存， 因而 可 以 节省 闪存 空间 并 且 减 少 磨损 。 


另外 ， 所 有 版 本 的 MySQL 服 务 器 ， 都 应 该 确认 超 线程 开启 了 。 当 
使 用 闪存 存储 时 ， 这 有 很 大 的 帮助 ， 因 为 磁盘 通常 不 再 是 瓶颈 ， 任 务 
会 更 多 地 从 IO 密集 变 为 CPU 密集 。 


9.5 “为 备 库 选择 硬件 


为 备 库 选择 硬件 与 为 主 库 选择 硬件 很 相似 ， 但 是 也 有 些 不 同 。 如 
果 正 计 划 着 建 一 个 备 库 做 容 灾 ， 通 常 需要 跟 主 库 差不多 的 配置 。 不 管 
备 库 是 不 是 仅仅 作为 一 个 主 库 的 备用 库 ， 都 应 该 强大 到 足以 承担 主 库 
上 发 生 的 所 有 写 入 ， 额 外 的 不 利 因素 是 备 库 只 能 序列 化 串 行 执行 。 
(下 一 章 有 更 多 关于 这 方面 的 内 容 ) 。 


备 库 硬件 主要 考虑 的 是 成 本 : 需要 在 备 库 硬件 上 人 花费 跟 主 库 一 样 
多 的 成 本 吗 ? 可 以 把 备 库 配置 得 不 一 样 以 便 从 备 库 上 获得 更 多 性 能 
吗 ? 如 果 备 库 跟 主 库 工作 负载 不 一 样 ， 可 以 从 不 一 样 的 硬件 配置 上 获 
得 隐 含 的 收益 吗 ? 


这 一 切 都 取决 于 备 库 是 否 只 是 备用 的 ， 你 可 能 希望 主 库 和 备 库 有 
相同 的 硬件 和 配置 ， 但 是 ， 如 果 只 是 用 复制 作为 扩展 更 多 读 容 量 的 方 
法 ， 那 备 库 可 以 有 多 种 不 同 的 捷径 。 例 如 ， 可 能 在 备 库 使 用 不 一 样 的 
存储 引擎 ， 并 且 有 些 人 使 用 更 便宜 的 硬件 或 者 用 RAID 0 代替 RAID 5 或 
RAID 10。 也 可 以 取消 一 些 一 致 性 和 持久 性 的 保证 让 备 库 做 更 少 的 工 
作 。 


这 些 措施 在 大 规模 部 署 的 情况 下 具有 很 好 的 成 本 效益 ， 但 是 在 小 
规模 的 情况 下 ， 可 能 只 会 使 事情 变 得 更 加 复杂 。 在 实践 中 ， 似 乎 大 多 


效 人 都 会 选择 以 下 两 种 集 略 为 备 库 选择 硬件 : 主 备 使 用 相同 的 硬件 ， 
或 为 主 库 购买 新 的 硬件 ， 然 后 让 备 库 使 用 主 库 淘 状 的 老 硬 件 。 


在 备 库 很 难 跟 上 主 库 时 ， 使 用 固态 硬盘 有 很 大 的 意义 。 很 好 的 随 
机 IO 性 能 有 助 于 缓解 单个 复制 线程 的 影响 。 


9.6 ”RAID 性 能 优化 


存储 引擎 通常 把 数据 和 索引 都 保存 在 一 个 大 文件 中 ， 这 意味 着 用 
RAID (Redundant Array of Inexpensive Disks, WRAN RII) 存储 大 
量 数据 通常 是 最 可 行 的 方法 尼 )。RAID 可 以 帮助 做 见 余 、 扩 展 存 储 容 
量 、 缓 分 ， 以 及 加 速 。 但 是 从 我 们 看 到 的 一 些 优化 案例 来 说 ，RAID 上 
有 多 种 多 样 的 配置 ， 为 需求 选择 一 个 合适 的 配置 非常 重要 。 


我 们 不 想 覆 盖 所 有 的 RAID 等 级 ， 或 者 深入 细节 来 分 析 不 同 的 
RAID 等 级 分 别 如 何 存 储 数据 。 关 于 这 个 主题 有 很 多 好 资料 ， 在 一 些 书 
籍 和 在 线 文档 可 以 找到 ( 沪 。 因 此 ， 我 们 专注 于 怎样 配置 RAID 来 满足 
数据 库 服务 器 的 需求 。 最 重要 的 RAID 级 别 如 下 : 


RAID 0 


如 果 只 是 简单 地 评估 成 本 和 性 能 ，RAID 0 是 成 本 最 低 和 性 能 
最 高 的 RAID 配 置 (但 是 ， 如 果 考 虑 数据 恢复 的 因素 ，RAID 0 的 
代价 会 非常 高 ) 。 因 为 RAID 0 没有 宛 余 ， 建 议 只 在 不 担心 数据 丢 
失 的 时 候 使 用 ， 例 如 备 库 或 者 因 某 些 原因 只 是 “一 次 性 ”使 用 的 时 
候 。 典 型 的 案例 是 可 以 从 另 一 台 备 库 轻 易 克 隆 出 来 的 备 库 服务 
器 。 再 次 说 明 ， RAID 0 没有 提供 任何 元 余 ， 即 使 R 在 RAID 中 表 


TURo SIRE, RAID 0 阵列 的 损坏 概率 比 单 块 磁盘 要 高 ， 而 不 
是 更 低 ! 


RAID 1 


RAID 1 在 很 多 情况 下 提供 很 好 的 读 性 能 ， 并 且 在 不 同 的 磁盘 
间 宛 余数 据 ， 所 以 有 很 好 的 见 余 性 。RAID 1 在 读 上 比 RAID 0 快 一 
些 。 它 非常 适合 用 来 存放 日 志 或 者 类 似 的 工作 ， 因 为 顺序 写 很 少 
需要 底层 有 很 多 磁盘 (随机 写 则 相反 ， 可 以 从 并 发 中 受益 ) o X 
通常 也 是 只 有 两 块 硬盘 又 需要 元 余 的 低 端 服务 器 的 选择 。 


RAID 0 和 RAID 1 很 简单 ， 在 软件 中 很 好 实现 。 大 部 分 操作 系 
统 可 以 很 简单 地 用 软件 创建 RAID 0 和 RAID 1。 


RAID5 


RAID 5 有 点 吓人 ， 但 是 对 某 些 应 用 ， 这 是 不 可 避免 的 选择 ， 
因为 价格 或 者 磁盘 数量 〈 例 如 需要 的 容量 用 RAID 1 无 法 满足 ) 的 
原因 。 它 通过 分 布 奇偶 校 验 块 把 数据 分 散 到 多 个 磁盘 ， 这 样 ， 如 
果 任 何 一 个 盘 的 数据 失效 ， 都 可 以 从 奇偶 校 验 块 中 重建 。 但 如 果 
有 两 个 磁盘 失效 了 ， 则 整个 卷 的 数据 无 法 恢复 。 就 每 个 存储 单元 
的 成 本 而 言 ， 这 是 最 经 济 的 见 余 配置 ， 因 为 整个 阵列 只 额外 消耗 
了 一 块 磁盘 的 存储 空间 。 


在 RAID 5 上 随机 写 是 昂贵 的 ， 因 为 每 次 写 需 要 在 底层 磁盘 发 
生 两 次 读 和 两 次 写 ， 以 计算 和 存储 校 验 位 。 如 果 写 操作 是 顺序 
的 ， 那 么 执行 起 来 会 好 一 些 ， 或 者 有 很 多 物理 磁盘 也 行 。 另 外 说 
一 下 ， 随 机 读 和 顺序 读 都 能 很 好 地 在 RAID 5S FHT. RAID 5 


用 作 存 放 数 据 或 者 日 志 是 一 种 可 接受 的 选择 ， 或 者 是 以 读 为 主 的 
业务 ， 不 需要 消耗 太 多 写 1/O 的 场景 。 


RAID 5 最 大 的 性 能 消耗 发 生 在 磁盘 失效 时 ， 因 为 数据 需要 重 
分 布 到 其 他 磁盘 。 这 会 严重 影响 性 能 ， 如 果 有 很 多 磁盘 会 更 糟 
糙 。 如 果 在 重建 数据 时 还 保持 服务 器 在 线 服 务 ， 那 就 别 指望 重建 
的 速度 或 者 阵列 的 性 能 会 好 。 如 果 使 用 RAID 5， 最 好 有 一 些 机 制 
可 以 做 故障 迁移 ， 当 有 间 题 的 时 候 让 一 台 机 器 不 再 提供 服务 ， 另 
一 台 接 管 。 不 管 怎样 ， 对 系统 做 一 下 故障 恢复 时 的 性 能 测试 很 有 
必要 ， 这 样 就 可 以 知道 故障 恢复 时 的 性 能 表现 到 底 如 何 。 如 果 一 
块 磁盘 失效 ，RAID 组 在 重建 过 程 中 ， 会 导致 磁盘 性 能 下 降 ， 使 用 
这 个 存储 的 服务 器 整体 性 能 可 能 会 不 成 比例 地 被 影响 到 慢 两 倍 到 
五 倍 。 


RAID 5 的 奇偶 校 验 块 会 带 来 额外 的 性 能 开销 ， 这 会 限制 它 的 
可 扩展 性 ， 超 过 10 块 硬盘 后 RAID 5 就 不 能 很 好 地 扩展 ，RAID 缓 
存 也 会 有 些 问题 。RAID 5 的 性 能 严重 依赖 于 RAID 控 制 器 的 缓 
存 ， 这 可 能 跟 数据 库 服务 器 需要 的 缓存 冲突 了 。 我 们 稍 后 会 讨论 


尽管 RAID 5 有 这 么 多 问题 ， 但 有 个 有 利 因素 是 它 非常 受 欢 

迎 。 因 此 ，RAID 控 制 器 往往 针对 RAID 5 做 了 高 度 优化 ， 虽 然 有 

理论 极限 ， 但 是 智能 控制 器 充分 利用 高 速 缓存 使 得 RAID 5 在 某 些 

景 下 有 时 可 以 达到 接近 RAID 10 的 性 能 。 实 际 上 这 可 能 反映 了 

RAID 10 的 控制 器 缺少 很 好 的 优化 ， 但 不 管 是 什么 原因 ， 这 就 是 
我 们 所 见 到 的 。 


RAID 10 


RAID 10 对 数据 存储 是 个 非常 好 的 选择 。 它 由 分 片 的 镜像 组 
成 ， 所 以 对 读 和 写 都 有 良好 的 扩展 性 。 相 对 于 RAID 5， 重 建 起 来 
很 简单 ， 速 度 也 很 快 。 另 外 RAID 10 还 可 以 在 软件 层 很 好 地 实 
现 。 


当 失 去 一 块 磁盘 时 ， 性 能 下 降 还 是 比较 明显 的 ， 因 为 条 融 可 
能 成 为 瓶颈 (3。 性 能 可 能 下 降 为 50%， 具 体 要 看 工作 负载 。 需 要 
注意 的 一 件 事 是 ，RAID 控 制 器 对 RAID 10 采 用 了 一 种 “串联 镜像 ” 
的 实现 。 这 不 是 最 理想 的 实现 ， 由 于 条 融化 的 缺点 是 “最 经 单 访问 
的 数据 可 能 仅 被 放置 在 一 对 机 械 磁盘 上 ， 而 不 是 分 布 很 多 份 ，” 所 
以 可 能 会 遇 到 性 能 不 佳 的 情况 。 


RAID 50 


RAID 50 由 条 带 化 的 RAID5 组 成 ， 如 果 有 很 多 盘 的 话 ， 这 可 
能 是 RAID 5 的 经 济 性 和 RAID 10 的 高 性 能 之 间 的 一 个 折 中 。 它 的 
主要 用 处 是 存放 非常 庞大 的 数据 集 ， 例 如 数据 仓库 或 者 非常 庞大 
的 OLTP 系 统 。 


表 9-2 是 多 种 RAID 配 置 的 总 结 。 


表 9-2: RAID 等 级 之 间 的 比较 


等 级 概要 TR 盘 数 读 快 Sik 

RAID 0 便宜 ， 快 速 ， 危 险 No N Yes Yes 

RAID 1 ARZ, HH, BA Yes 2 (通常 ) Yes No 

RAID 5 安全 (速度 ) KATH Yes N + 1 Yes 依赖 于 最 慢 的 盘 
RAID 10 昂贵 ， 高 速 ， 安 全 Yes 2N Yes Yes 


RAID 50 为 极 大 的 数据 存储 服务 Yes 2(N + 1) Yes Yes 


9.6.1 RAID 的 故障 转移 、 恢 复 和 镜像 


RAID 配 置 (除了 RAID 0) 都 提供 了 宛 余 。 这 很 重要 ， 但 很 容易 
让 人 低估 磁盘 同时 发 生 故 障 的 可 能 性 。 千 万 不 要 认为 RAID 能 提供 一 个 
强 有 力 的 数据 安全 性 保证 (19)。 


RAID 不 能 消除 甚至 减少 备份 的 需求 。 当 出 现 问题 的 时 候 ， 恢 复 时 
间 要 看 控制 器 、RAID 等 级 、 阵 列 大 小 、 硬 盘 速 度 ， 以 及 重建 阵列 时 是 
否 需要 保持 服务 器 在 线 。 


硬盘 在 完全 相同 的 时 间 损 坏 是 有 可 能 的 。 例 如 ， 峰 值 功率 或 过 
热 ， 可 以 很 容易 地 废 掉 两 个 或 更 多 的 磁盘 。 然 而 ， 更 常见 的 是 ， 两 个 
密切 相关 的 磁盘 (出现 故障 。 许 多 这 样 的 隐患 可 能 被 忽视 了 。 一 个 常 
见 的 情况 是 ， 很 少 被 访问 的 数据 ， 在 物理 媒介 上 损坏 了 。 这 可 能 几 个 
月 都 检测 不 到 ， 直 到 党 试 读 取 这 份 数 据 ， 或 另 一 个 硬盘 也 失效 了 ， 然 
后 RAID 控 制 器 尝试 使 用 损坏 的 数据 来 重建 阵列 。 越 大 的 硬盘 驱动 器 ， 
越 容易 发 生 这 种 情况 。 


这 就 是 为 什么 做 RAID 阵 列 的 监控 如 此 重要 。 大 部 分 控制 器 提供 了 
一 些 软件 来 报告 阵列 的 状态 ， 并 且 需 要 持续 跟踪 这 些 状态 ， 因 为 不 这 
么 做 可 能 融会 忽略 了 驱动 器 失效 。 你 可 能 表 失 恢复 数据 和 发 现 问题 的 
时 机 ， 当 第 二 块 硬盘 损坏 时 ， 已 经 晚 了 。 因 此 应 该 配置 一 个 监控 系统 
来 提醒 硬盘 或 者 RAID 卷 发 生 降 级 或 失效 了 。 


对 阵列 积极 地 进行 定期 一 致 性 检查 ， 可 以 减少 潜在 的 损坏 风险 。 
某 些 控制 器 有 后 台 巡 检 (Background Patrol Read) 功能 ， 当 所 有 驱动 
器 都 在 线 服 务 时 ， 可 以 检查 媒介 是 否 有 损坏 并 且 修 复 ， 也 可 以 帮助 避 


免 此 类 问题 的 发 生 。 在 恢复 时 ， 非 常 大 型 的 阵列 可 能 会 降低 检查 速 
度 ， 所 以 创建 大 型 阵列 时 一 定 要 确保 制定 了 相应 的 计划 。 


也 可 以 添加 一 个 热 备 盘 ， 这 个 盘 一 般 是 未 使 用 状态 ， 并 且 配 置 为 
备用 状态 ， 有 硬盘 坏 了 之 后 控制 器 会 自动 把 这 块 盘 恢 复 为 使 用 状态 。 
如 果 依 赖 于 每 个 服务 器 的 可 用 性 4， 这 是 一 个 好 主意 。 对 只 有 人 少数 硬 
盘 驱 动 器 的 服务 器 ， 这 么 做 是 很 昂贵 的 ， 因 为 一 个 空闲 磁盘 的 成 本 比 
例 比较 高 ， 但 如 果 有 多 个 磁盘 ， 而 不 设 一 个 热 备 盘 ， 就 是 愚蠢 的 做 
法 。 请 记 住 ， 更 多 的 磁盘 驱动 器 会 让 发 生 故 障 的 概率 迅速 增加 。 


除了 监控 硬盘 失效 ， 还 应 该 监控 RAID 控 制 器 的 电池 备份 单元 以 及 
写 缓 存 策略 。 如 果 电 闻 失 效 ， 大 部 分 控制 器 默认 设置 会 茶 用 与 缓存 ， 
把 缓存 策略 从 WriteBack 改 为 WriteThrough。 这 可 能 导致 服务 器 性 能 
降 。 很 多 控制 器 会 通过 一 个 学 习 过 程 周期 性 地 对 电池 充 放 电 ， 在 这 个 
过 程 中 缓存 是 被 禁用 的 。RAID 控 制 器 管理 工具 应 该 可 以 浏览 和 配置 电 
闻 充 放电 计划 ， 不 会 让 人 措手不及 。 


也 许 希 望 把 缓存 策略 设 为 WriteThrough 来 测试 系统 ， 这 样 就 可 以 
知道 系统 性 能 的 期 望 值 。 也 许 需 要 计划 电 闻 充 放 电 的 周期 ， 安 排 在 晚 
上 或 者 周末 ， 重 新 配置 服务 器 修改 innodb_flush_ log_at_trx_commit 和 
sync_binlog 变 量 ， 或 者 在 电池 充 放 电 时 简单 地 切换 到 另 一 台 服 务 器 。 


9.6.2 平衡 硬件 RAID 和 软件 RAID 


操作 系统 、 文 件 系统 和 操作 系统 看 到 的 驱动 器 数量 之 间 的 相互 作 
用 可 以 是 复杂 的 。Bug、 限 制 或 只 是 错误 配置 ， 都 可 能 会 把 性 能 降低 
到 远 远 低 于 理论 值 。 


如 果 有 10 块 硬盘 ， 理 想 中 应 该 能 够 承受 10 个 并 行 的 请 求 ， 但 有 时 
文件 系统 、 操 作 系统 或 RAID 控 制 器 会 把 请 求 序 列 化 。 面 对 这 个 问题 一 
个 可 行 的 办 法 是 尝试 不 同 的 RAID 配 置 。 例 如 ， 如 果 有 10 个 磁盘 ， 并 且 
必须 使 用 镜像 见 余 ， 性 能 也 要 好 ， 可 以 考虑 下 面 几 种 配置 : 


。 配置 一 个 包含 五 个 镜像 对 (RAID 1) 的 RAID 10 卷 99。 操作 系统 
只 会 看 到 一 个 很 大 的 单独 的 硬盘 卷 ，RAID 控 制 器 会 隐藏 底层 的 10 
块 硬盘 。 

在 RAID 控 制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 让 操作 系统 使 用 
五 个 卷 而 不 是 一 个 卷 。(22) 

在 RAID 控 制 器 中 配置 五 个 RAID 1 镜像 对 ， 然 后 使 用 软件 RAID 0 
把 五 个 卷 做 成 一 个 逻辑 卷 ， 通 过 部 分 硬件 、 部 分 软件 的 实现 方 
式 ， 有 效 地 实现 了 RAID 10. P 


哪个 选项 是 最 好 的 ? 这 依赖 于 系统 中 所 有 的 组 件 如 何 相互 协作 。 
不 同 的 配置 可 能 获得 相同 的 结果 ， 也 可 能 不 同 。 


我 们 已 经 提醒 了 多 种 配置 可 能 导致 串 行 化 。 例 如 ，ext3 文 件 系 统 
每 个 inode 有 一 个 单一 的 Mutexz ， 所 以 当 InnoDB 是 配置 为 
innodb_flush_method=O_DIRECT (常见 的 配置 ) 时 ， 在 文件 系统 会 
inode 级 别 的 锁定 。 这 使 得 它 不 可 能 对 文件 进行 VO 并 发 操作 ， 因 而 系 
统 表现 会 远 低 于 其 理论 上 的 能 力 。 


我 们 见 过 的 另 一 个 案例 ， 请 求 串 行 地 发 送 到 一 个 10 块 盘 的 RAID10 
卷 中 的 每 个 设备 ， 使 用 ReiserFS 文件 系统 ，InnoDB 打 开 了 
innodb_file_per_table 选 项 。 尝 试 在 人 硬件 RAID 1 的 基础 上 用 软件 RAID 0 
做 成 RAID 10 的 方式 ， 获 得 了 五 倍 多 的 吞吐 ， 因 为 存储 系统 开始 表现 
出 五 个 硬盘 同时 工作 的 特性 ， 而 不 再 是 一 个 了 。 造 成 这 种 情况 的 是 一 


个 已 经 被 修复 的 Bug， 但 是 这 是 一 个 很 好 的 例证 ， 说 明 这 类 事情 可 能 
发 生 。 


串 行 化 可 能 发 生 在 任何 的 软件 或 硬件 堆栈 层 。 如 果 看 到 这 个 问题 
发 生 了 ， 可 能 需要 更 改 文件 系统 、 升 级 内 核 、 暴 露 更 多 的 设备 给 操作 
系统 ， 或 使 用 不 同 的 软件 或 硬件 RAID 组 合 方式 。 应 该 检查 你 的 设备 的 
并 发 性 以 确保 它 确 实 是 在 做 并 发 TO (本 章 稍 后 有 更 多 关于 这 个 话题 的 
内 容 ) 。 


最 后 ， 当 准备 上 线 一 种 新 服务 器 时 ， 不 要 忘 了 做 基准 测试 ! 这 会 
帮助 你 确认 能 获得 所 期 望 的 性 能 。 例 如 ， 若 一 个 硬盘 驱动 器 每 秒 可 以 
做 200 个 随机 读 ， 一 个 有 8 个 硬盘 驱动 器 的 RAID 10 卷 应 该 接近 每 秒 1 
600 个 随机 读 。 如 果 观 察 到 的 结果 比 这 个 少 得 多 ， 比 如 说 每 秒 500 个 随 
机 读 ， 就 应 该 研究 下 哪里 可 能 有 问题 了 。 确 保 基 准 测 试 对 MO 子 系统 施 
加 了 跟 MySQL 一 样 的 方式 的 压力 一 一 例如 ， 使 用 O_DIRECT 标 记 ， 并 
且 如 果 使 用 没有 打开 innodb_file_per_table 选 项 的 InnoDB， 要 用 一 个 单 
一 的 文件 测试 IO 性 能 。 通 常 可 以 使 用 sysbench 来 验证 新 的 硬件 设置 都 
是 正确 的 。 


9.6.3 ”RAID 配置 和 缓存 


配置 RAID 控 制 器 通 音 有 几 种 方法 ， 一 是 可 以 在 机 器 局 动 时 进入 目 
带 的 设置 工具 ， 或 从 命令 行 中 运行 。 虽然 大 多 数控 制 器 提供 了 很 多 选 
项 ， 但 其 中 有 两 个 是 我 们 特别 关注 的 ， 一 是 条 市 化 阵列 的 块 大 小 
(Chunk Size) ， 还 有 就 是 控制 器 板 载 缓存 〈 也 称 为 RAID 缓 存 ， 我 们 
使 用 术语 ) 。 


RAID 条 带 块 大 小 


最 佳 条 带 块 大 小 和 具体 工作 负载 以 及 硬件 息息相关 。 从 理论 上 
讲 ， 对 随机 1/O 来 说 更 大 的 块 更 好 ， 因 为 这 意味 着 更 多 的 读 取 可 以 从 一 
个 单一 的 驱动 器 上 满足 。 


为 什么 会 是 这 样 ? 在 工作 负载 中 找 出 一 个 典型 的 随机 I1/O 操 作 ， 如 
果 条 带 的 块 大 小 足够 大 ， 至 少 大 到 数据 不 用 跨越 块 的 边界 ， 就 只 有 单 
个 硬盘 需要 参与 读 取 。 但 是 ， 如 果 块 大 小 比 要 读 取 的 数据 量 小 ， 就 没 
有 办 法 避免 多 个 硬盘 参与 读 取 。 


这 只 是 理论 上 的 观点 。 在 实践 中 ， 许 多 RAID 控 制 器 在 大 条 带 下 工 
作 得 不 好 。 例 如 ， 控 制 器 可 能 用 缓存 中 的 缓存 单元 大 小 作为 块 大 小 ， 
这 可 能 有 浪费 。 控 制 器 也 可 能 把 块 大 小 、 缓 存 大 小 、 读 取 单 元 的 大 小 
(在 一 个 操作 中 读 取 的 数据 量 ) 匹配 起 来 。 如 果 读 的 单位 太 大 ， 
RAID 缓 存 可 能 不 太 有 效 ， 最 终 可 能 会 读 取 比 真正 需要 的 更 多 的 数据 ， 
即使 是 微小 的 请 求 。 当 然 ， 在 实践 中 很 难 知道 是 否 有 数据 会 跨越 多 个 
驱动 器 。 即 使 块 大 小 为 16 KB， 与 InnoDB 的 页 大 小 相 匹 配 ， 也 不 能 让 
所 有 的 读 取 对 齐 16 KB 的 边界 。 文 件 系统 可 能 会 把 文件 分 成 片段 ， 每 
个 片段 的 大 小 通常 与 文件 系统 的 块 大 小 对 齐 ， 大 部 分 文件 系统 的 块 大 
小 为 4KB。 一 些 文件 系统 可 能 更 聪明 ， 但 不 应 该 指望 它 。 


可 以 配置 系统 以 便 从 应 用 到 底层 存储 所 有 的 块 都 对 齐 : InnoDB 的 
块 、 文 件 系统 的 块 、LVM， 分 区 偏 移 、RAID 条 带 、 磁 盘 局 区 。 我 们 
的 基准 测试 表明 ， 当 一 切 都 对 齐 时 ， 随 机 读 和 随机 写 的 性 能 可 能 分 别 
提高 15% 和 23%。 对齐 一 切 的 精密 技术 太 特 殊 了 ， 无 法 在 这 细 说 ， 但 


其 他 很 多 地 方 有 很 多 不 错 的 信息 ， 包 括 我 们 的 博客 ， 
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RAIDS 


RAID 缓 存 就 是 物理 安装 在 RAID 控 制 器 上 的 (相对 来 说 ) DS 
存 。 它 可 以 用 来 缓冲 硬盘 和 主机 系统 之 间 的 数据 。 下 面 是 RAID 卡 使 用 
缓存 的 几 个 原因 : 


缓存 读 取 


控制 器 从 磁盘 读 取 数 据 并 发 送 到 主机 系统 后 ， 通 过 缓存 可 以 
存储 读 取 的 数据 ， 如 果 将 来 的 请 求 需要 相同 的 数据 ， 束 可 以 直接 
使 用 而 无 须 再 次 去 读 盘 。 


这 实际 上 是 RAID 缓 存 一 个 很 糟糕 的 用 法 。 为 什么 呢 ? AFR 
作 系 统 和 数据 库 服 务 器 有 自己 更 大 得 多 的 缓存 。 如 果 数 据 在 这 些 
上 层 缓 存 中 命中 了 ，RAID 缓 存 中 的 数据 就 不 会 被 使 用 。 相 反 ， 如 
果 上 层 的 缓存 没有 命中 ， 就 有 可 能 在 RAID 缓 存 中 命中 ， 但 这 个 概 
率 是 微乎其微 的 。 因 为 RAID 缓 存 要 小 得 多 ， 几 乎 肯定 会 被 刷新 
掉 ， 被 其 他 数据 填 上 去 了 。 无 论 哪 种 方式 ， 缓 冲 读 都 是 浪费 RAID 
缓存 的 事 。 


缓存 预 读数 据 


如 果 RAID 控 制 器 发 现 连续 请 求 的 数据 ， 可 能 会 决定 做 预 读 操 
作 一 一 就 是 预先 取出 估计 很 快 会 用 到 的 数据 。 在 数据 被 请 求 之 
前 ， 必 须 有 地 方 放 这 些 数 据 。 这 也 会 使 用 RAID 缓 存 来 放 。 预 读 对 


性 能 的 影响 可 能 有 很 大 的 不 同 ， 应 该 检查 确保 预 读 确实 有 帮助 。 
如 果 数 据 库 服 务 器 做 了 自己 的 智能 预 读 (例如 InnoDB 的 预 读 ) ， 
RAID 控 制 器 的 预 读 可 能 就 没有 帮助 ， 甚 至 可 能 会 干扰 所 有 重要 的 
缓冲 和 同步 写 入 。 


缓冲 写 入 


RAID 控 制 器 可 以 在 高 速 缓存 里 缓冲 写 操 作 ， 并 且 一 段 时 间 后 
再 写 到 硬盘 。 这 样 做 有 双重 的 好 处 : 首先 ， 可 以 快 得 多 地 返回 给 
主机 系统 写成 功 ”的 信号 ， 远 远 比 写 入 到 物理 磁盘 上 要 快 ; 其 
次 ， 可 以 通过 积累 写 操作 从 而 更 有 效 地 批量 操作 (2)。 


内 部 操作 


某 些 RAID 的 操作 是 非常 复杂 的 一 一 尤其 是 RAID 5 的 写 入 操 
作 ， 其 中 要 计算 校 验 位 ， 用 来 在 发 生 故 障 时 重建 数据 。 控 制 器 做 
这 类 内 部 操作 需要 使 用 一 些 内 存 。 


这 也 是 RAID 5 在 一 些 RAID 控 制 器 上 性 能 差 的 原因 : 为 了 好 
的 性 能 需要 读 取 大 量 数据 到 内 存 。 有 些 控制 器 不 能 较 好 地 平衡 缓 
存 写 和 RAID 5 校 验 位 操作 所 需要 的 内 存 。 


一 般 情 况 下 ，RAID 控 制 器 的 内 存 是 一 种 稀缺 资源 ， 应 该 尽量 用 在 
刀 丸 上 。 绥 存 读 取 通 常 是 一 种 沪 费 ， 但 是 缓冲 写 入 是 加 速 WO 性 能 的 一 
个 重要 途径 。 许 多 控制 器 可 以 选择 如 何 分 配 内 存 。 例 如 ， 可 以 选择 有 
多 少 缓存 用 于 写 入 和 多 少 用 于 读 取 。 对 于 RAID 0、RAID 1 和 RAID 
10， 应 该 把 控制 器 缓存 100% 分 配给 写 入 用 。 对 于 RAID 5， 应 该 保留 一 


些 内 存 给 内 部 操作 。 通 常 这 是 正确 的 建议 ， 但 并 不 总 是 适用 
的 RAID 卡 需要 不 同 的 配置 。 


个 同 


当 正 在 用 RAID 缓 存 缓冲 写 入 时 ， 许 多 控制 器 可 以 配置 延迟 写 入 多 
久 时 间 〈 例 如 一 秒 钟 、 五 秒 钟 ， 等 等 ) 是 可 以 接受 的 。 较 长 的 延迟 意 
味 着 更 多 的 写 入 可 以 组 合 在 一 起 更 有 效 地 刷新 到 磁盘 。 缺 点 是 写 入 会 
变 得 更 加 “ 突 发 的 "。 但 这 不 是 一 件 坏事 ， 除 非 应 用 一 连 串 的 写 请 求 把 
控制 器 的 缓存 填 满 了 才 被 刷新 到 磁盘 。 如 果 没 有 足够 的 空间 存放 应 用 
程序 的 写 入 请 求 ， 写 操作 就 会 等 待 。 保 持 短 的 延迟 意味 着 可 以 有 更 多 
的 写 操作 ， 并 且 会 更 低 效 (人 ， 但 能 抚 平 性 能 波动 ， 并 且 有 助 于 保持 更 
多 的 空间 缓存 ， 来 接收 应 用 程序 的 爆发 请 求 。 (我 们 在 这 里 简化 了 
一 一 事实 上 控制 器 往往 很 复杂 ， 不 同 的 供应 商 有 自己 的 均衡 算法 ， 所 
以 我 们 只 是 试图 覆盖 基本 原则 。) 


与 入 缓冲 对 同步 与 入 非常 有 用 ， 例 如 事务 日 志和 和 二进制 日 志 
(sync_binlog 设 置 为 1) 调用 的 fsyncO0， 但 是 除非 控制 器 有 电池 备份 单 
元 (BBU) 或 其 他 非 易 失 性 存储 (入 ， 否 则 不 应 该 启用 RAID 缓 存 。 不 
市 BBU 的 情况 下 缓冲 写 ， 在 断 电 时 ， 有 可 能 损坏 数据 库 ， 甚 至 是 事务 
性 文件 系统 。 然 而 ， 如 果 有 BBU， 启 用 写 入 缓存 可 以 提升 很 多 日 志 刷 
新 的 工作 的 性 能 ， 例 如 事务 提交 时 刷新 事务 日 志 。 


最 后 要 考虑 的 是 ， 许 多 硬盘 驱动 器 有 自己 的 缓存 ， 可 能 有 “ 假 ” 的 
fsyncO 操 作 ， 欺 骗 RAID 控 制 器 说 数据 已 被 写 入 物理 介质 佐 )。 有 时 可 以 
让 硬盘 直接 挂 载 (而 不 是 挂 到 RAID 控 制 器 上 ) ， 让 操作 系统 管理 它们 
的 缓存 ， 但 这 并 不 总 是 有 效 。 这 些 缓存 通常 在 做 fsync() 操 作 时 被 刷 
新 ， 另 外 同步 WO 也 会 绕 过 它们 直接 访问 磁盘 ， 但 是 再 次 提醒 ， 硬 盘 驱 
动 器 可 能 会 骗 你 。 应 该 确保 这 些 缓存 在 fsyncO 时 真 的 刷新 了 ， 否 则 就 
禁用 它们 ， 因 为 磁盘 缓存 没有 电 闻 供电 (所 以 断 电 会 丢失 ) 。 操 作 系 


统 或 RAID 固 件 没有 正确 地 管理 硬盘 管理 已 经 造成 了 许多 数据 丢失 的 案 
例 。 


由 于 这 个 以 及 其 他 原因 ， 当 安装 新 硬件 时 ， 做 一 次 真实 的 宕 机 测 
试 (比如 拔 掉 电源 ) 是 很 有 必要 的 。 通 常 这 是 找 出 隐藏 的 错误 配置 或 
者 诡异 的 硬盘 问题 的 唯一 办 法 。 在 
http://brad.livejournal.com/2116715.html 有 个 方便 的 脚本 可 以 使 用 。 


为 了 测试 是 否 真 的 可 以 依赖 RAID 控 制 器 的 BBU， 必 须 像 真 实情 况 
一 样 切 断 电源 一 段 时 间 ， 因 为 茶 些 单元 断 电 超过 一 段 时 间 后 就 可 能 会 
丢失 数据 。 这 里 再 次 重申 ， 任 何 一 个 环节 出 现 问题 都 会 使 整个 存储 组 
件 失效 。 


9.7 SAN 和 NAS 


SAN ( Storage Area Network ) 和 NAS ( Network-Attached 
Storage) 是 两 个 外 部 文件 存储 设备 加 载 到 服务 器 的 方法 。 不 同 的 是 访 
问 存储 的 方式 。 访 问 SAN 设 备 时 通过 块 接口 ， 服 务 器 直接 看 到 一 块 硬 
盘 并 且 可 以 像 硬 盘 一 样 使 用 ， 但 是 NAS 设 备 通过 基于 文件 的 协议 来 访 
问 ， 例 如 NFS 或 SMB。SAN 设 备 通常 通过 光纤 通道 协议 (FCP) 或 
iSCSI 连接 到 服务 器 ， 而 NAS 设 备 使 用 标准 的 网 络 连接 。 还 有 一 些 设备 
可 以 同时 通过 这 两 种 方式 访问 ， 比 如 NetApp Filer 存 储 系统 。 


在 接 下 来 的 讨论 中 ， 我 们 将 把 这 两 种 类 型 的 存储 统一 称 为 SAN。 
在 后 面 的 阅读 应 该 记 住 这 一 点 。 主 要 区 别 在 于 作为 文件 还 是 块 设备 访 
问 存储 。 


SAN 人 允许 服务 器 访问 非常 大 量 的 硬盘 驱动 器 一 一 通常 在 50 块 以 上 
一 一 并 且 通 单 配置 大 容量 智能 高 速 缓存 来 缓冲 写 入 。 块 接口 在 服务 器 
上 以 逻辑 单元 号 (LUN) 或 者 虚拟 卷 《除非 使 用 NFS) 出 现 。 许 多 
SAN 也 允许 多 节点 组 成 集群 来 获得 更 好 的 性 能 或 者 增加 存储 容量 。 


目前 新 一 代 SAN 跟 几 年 前 的 不 同 。 许 多 新 的 SAN 瘟 合 了 闪存 和 机 
械 硬 盘 ， 而 不 仪 仅 是 机 械 硬 盘 了 。 它 们 往往 有 大 到 TB 级 或 以 上 的 闪存 
作为 缓存 ， 不 像 旧 的 SAN， 只 有 相对 较 小 的 缓存 。 此 外 ， 旧 的 SAN 无 
法 通过 配置 更 大 的 缓存 层 来 "扩展 缓冲 地 ”， 而 新 的 SAN 有 时 可 以 。 
此 ， 相 比 之 下 新 的 SAN 可 以 提供 更 好 的 性 能 。 


9.7.1 ”SAN 基准 测试 


我 们 已 经 测试 了 多 个 SAN 厂 商 的 多 种 产品 。 表 9-3 展 示 了 一 些 低 并 
发 场景 下 的 典型 测试 结果 。 


表 9-3: 以 16KB 为 单位 同步 单线 程 操作 单个 4GB 文 件 的 IOPS 


设备 顺序 写 Iie lS 随机 读 
SAN1 做 了 RAID5 2428 5794 629 258 
SAN1 做 了 RAID 10 1765 3427 1725 213 
SAN2 通过 NFS 1768 3154 2056 166 
10k RPM 硬盘 ，RAID 1 7027 4773 2302 310 
Intel SSD 3045 6266 2427 4397 


具体 的 SAN 厂 商 名 字 和 配置 做 了 保密 处 理 ， 但 是 可 以 透露 的 是 这 
些 都 不 是 便宜 的 SAN。 测 试 都 是 用 同步 的 16 KB 操作 ， 模 拟 InnoDB 配 
置 在 O_DIRECT 模 式 时 的 操作 方式 。 


从 表 9-3 中 可 以 得 出 什么 结论 ? 我 们 测试 的 系统 不 是 都 可 以 直接 比 
较 的 ， 所 以 盯 着 这 些 好 看 的 数据 点 来 看 不 能 客观 地 做 出 评价 。 然 而 ， 
这 些 结果 很 好 地 说 明了 这 类 设备 的 总 体 性 能 表现 ，SAN 可 以 承受 大 量 
的 连续 写 入 ， 因 为 可 以 缓冲 并 合并 MO。SAN 提 供 顺 序 读 取 没 有 问题 ， 
因为 可 以 做 预 读 并 从 缓存 中 提出 数据 。 在 随机 写 上 会 慢 一 些 ， 因 为 写 
入 操作 不 能 较 好 地 合并 。 因 为 读 取 通 常 在 缓存 中 无 法 命中 ， 必 须 等 待 
硬盘 驱动 器 响应 ， 所 以 SAN 很 不 适合 做 随机 读 取 。 最 重要 的 是 ， 服 务 
器 和 SAN 之 间 有 传输 延迟 。 这 是 为 什么 通过 NFS 连 接 SAN 时 ， 提 供 的 
每 秒 随机 读 还 不 如 一 块 本 地 磁盘 的 原因 。 


我 们 已 经 用 较 大 尺寸 的 文件 做 了 基准 测试 ， 但 没有 用 其 他 尺寸 的 
文件 在 上 述 的 系统 中 测试 。 然 而 ， 无 论 结果 如 何 ， 可 以 预见 的 是 : 不 
管 多 么 强大 的 SAAN， 对 于 小 的 随机 操作 ， 都 无 法 获得 良好 的 响应 时 间 
和 吞吐 量 。 延 时 的 大 部 分 都 是 由 于 服务 器 和 SAN 之 间 的 链 路 导致 的 。 


我 们 的 基准 测试 显示 的 每 秒 操作 吞吐 量 ， 并 没有 说 出 完整 的 故 
事 。 至 少 有 三 个 重要 指标 : 每 秒 吞吐 量 字 节 数 、 并 发 性 和 响应 时 间 。 
在 一 般 情况 下 ， 相 对 于 直接 连接 存储 (DAS) ， SAN 无 论 读 写 都 可 以 
提供 更 好 的 顺序 1/O 吞 吐 量 。 大 多 数 SAN 可 以 支持 大 量 的 并 发 性 ， 但 基 
准 测试 只 有 一 个 线程 ， 这 可 以 说 明 最 坏 的 情况 。 但 是 ， 当 工作 集 不 能 
放 到 SAN 的 缓存 时 ， 随 机 读 在 吞吐 量 和 延迟 方面 将 变 得 很 差 ， 甚 至 延 
迟 将 高 于 直接 访问 本 地 存储 。 


9.7.2 ”使 用 基于 NFS 或 SMB 的 SAN 


某 些 SAN， 例 如 NetApp Filer 存 储 ， 通 单 通过 NFS 访 问 ， 而 不 是 通 
过 光纤 或 者 iSCSI。 这 曾经 是 我 们 希望 避免 的 情况 ， 但 是 NFS 今 天 比 以 


前 好 了 很 多 。 通 过 NFS 可 以 获得 相当 好 的 性 能 ， 尽 管 需 要 专门 配置 网 
络 。SAN 太 商 提 供 的 最 佳 实践 指导 可 以 帮助 了 解 怎 样 配置 。 


主要 考虑 的 事情 是 NFS 协 议 自身 怎样 影响 性 能 。 许 多 文件 元 信息 
操作 ， 通 常 在 本 地 文件 系统 或 者 SAN 设 备 (JENAS) 的 内 存 中 执行 ， 
但 是 在 NAS 上 可 能 需要 一 次 网 络 来 回 发 送 。 例 如 ， 我 们 提醒 过 把 二 进 
制 日 志 存 在 NFS 上 会 损害 服务 器 性 能 ， 即 使 关闭 sync_binlog 也 无 济 于 
事 。 


也 可 以 通过 SMB 协 议 访问 SAN 或 者 NAS， 需 要 考虑 的 问题 类 似 : 
可 能 有 更 多 的 网 络 通信 ， 会 对 延迟 产生 影响 。 对 传统 桌面 用 户 这 没 什 
么 影响 ， 他 们 通常 只 是 在 挂 载 的 驱动 器 上 存储 电子 表格 或 者 其 他 文 
档 ， 或 者 只 是 为 了 备份 复制 一 些 东西 到 另 一 台 服 务 器 。 但 是 用 作 
MySQL 读 写 它 的 文件 ， 就 会 有 严重 的 性 能 问题 。 


9.7.3 MySQL 在 SAN 上 的 性 能 


1O 基 准 测 试 只 是 一 种 观察 的 方式 ，MySQL 在 SAN 上 具体 性 能 
现 如 何 ? 在 许多 情况 下 ， MySQL 运 行 得 还 可 以 ， 可 以 避免 很 多 SAN 可 
能 导致 性 能 下 降 的 情况 。 仔 细 地 做 好 逻辑 和 物理 设计 ， 包 括 索 引 和 适 
当 的 服务 器 硬件 (尽量 配置 更 多 的 内 存 ! ) 可 避免 很 多 的 随机 IO 操 
作 ,， 或 者 可 以 转化 为 顺序 的 VO。 然而 ， 应 该 知道 的 是 ， 通 过 一 段 时 间 
的 运行 ， 这 种 系统 可 以 达到 一 个 微妙 的 平衡 一 一 引入 一 个 新 的 查询 ， 
Schema 的 变化 或 频繁 的 操作 ， 都 很 容易 扰乱 这 种 平衡 。 


例如 ， 一 个 SAN 用 户 ， 我 们 知道 他 对 每 天 的 性 能 表现 非常 满意 ， 
到 有 一 天 他 想 清理 一 张 变 得 非常 大 的 旧 表 中 的 大 量 数据 行 。 这 会 导 


致 一 个 长 时 间 运 行 的 DELETE 语 句 ， 每 秒 只 能 删 几 百 行 ， 因 为 删除 每 
行 所 需 的 随机 MO，SAN 无 法 有 效 快速 地 执行 。 有 没有 办 法 来 加 快 操 
作 ， 它 只 是 要 花费 很 长 的 时 间 才 能 完成 。 另 一 个 让 他 大 吃 一 惊 的 事 
是 ， 当 对 一 个 大 表 执行 ALTER 类 似 的 操作 时 明显 速度 减 慢 。 


这 些 都 是 些 典 型 的 例子 ， 哪 些 工 作 放 在 SAAN 上 不 合适 : 执行 大 量 
的 随机 WO 的 单线 程 任务 。 在 当前 版 本 的 MySQL 中 ， 复 制 是 另 一 个 单 
线程 任务 。 因 此 ， 备 库 的 数据 存储 在 SAAN 上 ， 可 能 更 容易 落后 于 主 
库 。 批 处 理 作业 也 可 能 运行 得 更 慢 。 在 非 高 峰 时 上段 或 周末 执行 一 个 一 
次 性 的 延迟 敏感 的 操作 是 可 以 的 ， 但 是 服务 器 的 很 多 部 分 依然 需要 很 
好 的 性 能 ， 例 如 拷贝 、 二 进 制 日 志 ， 以 及 InnoDB 的 事务 日 志 上 总 是 需 
要 很 好 的 小 随机 IO 性 能 。 


9.7.4 ”应 该 用 SAN 吗 


喝 ， 这 是 个 长 期 存在 的 问题 一 一 在 某 些 情况 下 ， 数 百 万 美元 的 问 
题 。 有 很 多 因素 要 考虑 ， 以 下 我 们 列 出 其 中 的 几 个 。 


备份 


集中 存储 使 备份 更 易于 管理 。 当 所 有 数据 都 存储 在 一 个 地 方 
时 ， 可 以 只 备份 SAN， 只 要 确保 已 经 确认 过 了 所 有 的 数据 都 在 。 
这 简化 了 问题 ， 例 如 “你 确定 我 们 要 备份 所 有 的 数据 吗 ? ”此 外 ， 
某 些 设备 有 如 连续 数据 保护 (CDP) 以 及 强大 的 快照 功能 等 功 
能 ， 使 得 备份 更 容易 、 更 灵活 。 


简化 容量 规划 


不 确定 需要 多 大 容量 吗 ? SAN 可 以 提供 这 种 能 购买 大 
容量 存储 、 分 享 给 很 多 应 用 ， 并 且 可 以 调整 大 小 并 按 需 求 重新 发 
布 。 


存储 整合 还 是 服务 器 整合 


某 些 CIO 盘 点 数据 中 心 运行 了 哪些 东西 时 ， 可 能 会 得 出 结论 
说 大 量 的 MO 容量 被 浪费 了 ， 这 是 把 存储 空间 和 IO 容量 混为一谈 
了 。 毫 无 疑问 的 是 ， 如 果 集 中 存储 可 以 确保 更 好 地 利用 存储 资 
源 ， 但 这 样 做 将 会 如 何 影响 使 用 存储 的 系统 ?典型 的 数据 库 操作 
在 性 能 上 可 以 达到 数量 级 的 差异 ， 因 此 可 能 会 发 现 ， 如 果 集 中 存 
储 可 能 需要 增加 10 倍 的 服务 器 〈 或 更 多 ) 才能 处 理 原 来 的 工作 。 
尽管 数据 中 心 的 UO 容 量 在 SAN 上 可 以 更 好 地 被 利用 ， 但 是 会 导 至 
其 他 系统 无 法 充分 被 利用 〈 例 如 数据 库 服务 器 花费 大 量 时 间 等 待 
IO、 应 用 程序 服务 器 花费 大 量 时 间 等 竺 数据库， 依 此 类 推 ) 。 在 
现实 中 我 们 已 经 看 到 过 很 多 通过 分 散 存 储 来 整合 服务 器 并 削减 成 
本 的 例子 。 


有 时 人 们 认为 SAN 是 高 可 用 解决 方案 。 之 所 以 会 这 样 认为 ， 
可 能 是 因为 对 高 可 用 的 真实 含义 的 理解 出 现 了 分 歧 ， 我 们 将 在 第 
12 章 给 出 建议 。 


根据 我 们 的 经 验 ，SAN 经 常 与 故障 和 停机 联系 在 一 起 ， 这 不 
是 因为 它们 不 可 靠 一 一 它们 没什么 问题 ， 也 确实 很 少 出 故障 一 一 
只 是 因为 人 们 都 不 愿意 相信 这 样 的 工程 奇迹 其 实 也 会 坏 的 ， 因 而 
缺乏 这 方面 的 准备 。 此 外 ，SAN 有 时 是 一 个 复杂 的 、 神 秘 的 黑 盒 


子 ， 当 出 问题 的 时 候 没 有 人 知道 该 如 何 解决 ， 并 且 价 格 昂贵 ， 难 
以 快速 构建 管理 SAN 所 需 的 专业 知识 。 大 多 数 的 SAN 都 对 外 缺乏 
可 见 性 〈 就 是 个 黑 盒 子 ) ， 这 也 是 为 什么 不 应 该 只 是 简单 地 信任 
SAN 管 理 员 、 支 持 人 员 或 管理 控制 台 的 原因 。 我 们 看 到 过 所 有 这 
三 种 人 都 错 了 的 情况 : 当 SAN 出 了 问题 ， 如 出 现 硬 盘 驱 动 器 故障 
导致 性 能 下 降 9) 的 案例 。 这 是 另 一 个 推荐 使 用 sysbench 的 理由 : 
sysbench 可 以 快速 地 完成 一 个 VO 基准 测试 以 证 明 是 否 是 SAN 的 问 


题 。 
服务 器 之 间 的 交互 


共享 存储 可 能 会 导致 看 似 独 立 的 系统 实际 上 是 相互 影响 的 ， 
有 时 甚至 会 很 严重 。 例 如 ， 我 们 知道 一 个 SAN 用 户 有 个 很 粗放 的 
认识 ， 当 开发 服务 器 上 有 IO 密集 型 操作 时 ， 会 引起 数据 库 服 务 器 
几乎 陷于 停顿 。 批 处 理 作 业 、ALTER TABLE、 备 份 一 一 任何 一 个 
系统 上 产生 大 量 的 IO 操作 都 可 能 会 导致 其 他 系统 的 IO 资源 不 
足 。 有 时 的 影响 远 远 比 直觉 想象 的 糟糕 ， 一 个 看 似 不 起 眼 的 操作 
可 能 会 导致 严重 的 性 能 下 降 。 


成 本 


成 本 是 什么 ? 管理 和 行政 费用 ? 每 秒 1/O 操 作 数 (IOPS) 中 每 
个 IO 操作 的 成 本 ? 标价 ? 


有 充分 的 理由 使 用 SAN， 但 无 论 销售 人 员 说 什么 ， 至 少 从 
MySQL 需 要 的 性 能 类 型 来 看 ，SAN 不 是 最 佳 的 选择 。 (选择 一 个 
SAN 供 应 商 并 跟 它 们 的 销售 谈 ， 你 可 能 听 到 他 们 一 般 也 是 同意 
的 ， 然 后 告诉 你 他 们 的 产品 是 一 个 例外 。) 如 果 考 虑 性 价 比 ， 结 


论 会 更 加 清楚 ， 因 为 内 存 存 储 或 配置 有 电 闻 支持 写 组 存 的 RAID 控 
制 器 加 上 老式 硬盘 驱动 器 ， 可 以 在 低 得 多 的 价格 下 提供 更 好 的 性 
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关于 这 个 话题 ， 不 要 筷 了 让 销售 给 你 两 台 SAN 的 价格 。 至 少 
需要 两 全， 否则 这 人 台 昂 贵 的 SAN 可 能 会 成 为 故障 中 的 单 点 。 


有 许多 “血泪 史 ” 可 以 引 以 为 戒 ， 这 不 是 试图 吓 距 你 远离 SAN。 我 
们 知道 的 SAN 用 户 都 非常 地 爱 这 些 存储 ! 如 果 正 在 考虑 是 否 使 用 
SAN， 最 重要 的 事情 是 想 清 楚 要 解决 什么 问题 。SAN 可 以 做 很 多 事 
情 ， 但 解决 性 能 问题 只 是 其 中 很 小 的 一 部 分 。 相 比 之 下 ， 当 不 要 求 很 
多 高 性 能 的 随机 WO， 但 是 对 某 些 功能 感 兴趣 的 话 ， 如 快照 、 存 储 整 
合 、 重 复数 据 删 除 和 虚拟 化 ，SAN 可 能 非常 适合 。 


因此 ， 大 多 数 Web 应 用 不 应 该 让 数据 库 使 用 SAN， 但 SAN 在 所 请 
的 企业 级 应 用 很 受 欢 迎 。 企 业 通 常 不 太 受 预算 限制 ， 所 以 能 够 负担 得 
起 作为 “奢侈 品 ” 的 SAN。 (有 时 SAN 甚 至 作为 一 种 身份 的 象征 ! ) 


98 ”使 用 多 磁盘 卷 


我 们 迟早 都 会 碰 到 文件 应 该 放 哪 的 问题 ， 因 为 MySQL 创 建 了 多 种 
类 型 的 文件 : 


数据 和 索引 文件 
事务 日 志文 件 
二 进 制 日 志文 件 
常规 日 志 (例如 ， 错 误 日 志 、 查 询 日 志和 慢 查询 日 志 


。 临时 文件 和 临时 表 


MySQL 没 有 提供 复杂 的 空间 管理 功能 。 默 认 情 况 下 ， 只 是 简单 地 
把 每 个 Schema 的 文件 放 入 一 个 单独 的 目录 。 有 人 少量 选项 来 控制 数据 文 
件 放 哪 。 例 如 ， 可 以 指定 MyISAM 表 的 索引 位 置 ， 也 可 以 使 用 MySQL 
5.1 的 分 区 表 。 


如 果 正 在 使 用 InnoDB 默 认 配 置 ， 所 有 的 数据 和 文件 都 放 在 一 组 数 
据 文件 (共享 表 空 间 ) 中 ， 只 有 表 定 义 文件 放 在 数据 目录 。 因 此 ， 大 
部 分 用 户 把 所 有 的 数据 和 文件 放 在 了 单独 的 卷 。 


然而 ， 有 时 使 用 多 个 卷 可 以 帮助 解决 1JO 负 载 高 的 问题 。 例 如 ， 一 
个 批 处 理 作业 需要 写 入 很 多 数据 到 一 张 巨 大 的 表 ， 将 这 张 表 放 在 单独 
的 卷 上 ， 可 以 避免 其 他 查询 的 1/O 受 到 影响 。 理 想 的 情况 下 ， 应 该 分 析 
不 同 数据 的 WO 访问 类 型 ， 才 能 把 数据 放 在 适当 的 位 置 ， 但 这 很 难 做 
到 ， 除 非 已 经 把 数据 放 在 不 同 的 卷 上 。 


你 可 能 已 经 听 过 标准 建议 ， 就 是 把 事务 日 志和 数据 文件 放 在 不 同 
的 卷 上 面 ， 这 样 日 志 的 顺序 MO 和 数据 的 随机 MO 不 会 互相 影响 。 但 是 
除非 有 很 多 硬盘 (20 或 更 多 ) 或 者 内 存 存 储 ， 否 则 在 这 样 做 之 前 应 该 
考虑 清楚 代价 。 


二 进 制 日 志和 数据 文件 分 离 的 真正 的 优势 ， 是 减少 事故 中 同时 丢 
失 数 据 和 日 志文 件 的 可 能 性 。 如 果 RAID 控 制 器 上 没有 电池 支持 的 写 缓 
存 ， 把 它们 分 开 是 很 好 的 做 法 。 


但 是 ， 如 果 有 备用 电池 单元 ， 分 离 卷 就 可 能 不 是 想象 中 那么 必要 
了 。 人 性 能 差异 很 小 是 主要 原因 。 这 是 因为 即使 有 大 量 的 事务 日 志 写 
入 ， 其 中 大 部 分 写 入 都 很 小 。 因 此 ，RAID 缓 存 通常 会 合并 LO 请 求 ， 


通常 只 会 得 到 每 秒 的 物理 顺序 写 请 求 。 这 通常 不 会 干预 数据 文件 的 随 
机 VO， 除 非 RAID 控 制 器 真 的 整体 上 饱和 和 了。 一般 的 日 志 ， 其 中 有 连 
续 的 异步 写 入 、 负 和 荷 也 低 ， 可 以 较 好 地 与 数据 分 享 一 个 卷 。 


将 日 志 放 在 独立 的 卷 是 否 可 以 提升 性 能 ? 通 疝 情况 下 是 的 ， 但 是 
从 成 本 的 角度 来 看 这 个 问题 ， 是 否 真 的 值得 这 么 做 ， 答 案 往往 是 否定 
的 ， 尽 管 很 多 人 不 这 么 认为 。 


原因 是 : 为 事务 日 志 提 供 专门 的 硬盘 是 很 昂贵 的 。 假 设 有 六 个 硬 
盘 驱 动 器 ， 最 常规 的 做 法 是 把 所 有 六 块 盘 放 到 一 个 RAID 卷 ， 或 者 分 成 
两 部 分 ， 四 个 放 数 据 ， 两 个 放 事 务 日 志 。 不 过 如 果 这 样 做 ， 就 减少 了 
三 分 之 一 的 硬盘 放 数 据 文件 ， 这 会 导致 性 能 显著 地 下 降 。 此 外 ， 专 门 
提供 两 个 驱动 器 ， 对 负载 的 影响 也 微不足道 (假设 RAID 控 制 器 有 电 闻 
支持 的 写 缓存 ) o 


另 一 方面 ， 如 果 有 很 多 硬盘 ， 投 入 一 些 给 事务 日 志 可 能 会 从 中 受 
荔 。 例 如 ， 一 共有 30 块 硬盘 ， 可 以 分 两 块 硬盘 (配置 为 一 个 RAID 1 的 
卷 ) 给 日 志 ， 能 让 日 志 写 尽 可 能 快 。 对 于 额外 的 性 能 ， 也 可 以 在 RAID 
控制 器 中 分 配 一 些 写 缓存 空间 给 这 个 RAID 卷 。 


成 本 效益 不 是 唯一 考虑 的 因素 。 可 能 想 保持 InnoDB 的 数据 和 事务 
日 志 在 同一 个 卷 的 另 一 个 原因 是 ， 这 种 策略 可 以 使 用 LVM 快 照 做 无 锁 
的 备份 。 某 些 文 件 系 统 允 许 一 致 的 多 卷 快 照 ， 并 且 对 这 些 文件 系统 ， 
这 是 一 个 很 轻 量 的 操作 ， 但 对 于 ext3 有 很 多 东西 需要 注意 。 (也 可 以 
使 用 Percona XtraBackup 来 做 无 锁 备 份 ， 关 于 此 主题 更 多 的 信息 ， 请 参 
阅 第 15 章 ) 


如 果 已 经 启用 sync_binlog， 二 进 制 日 志 在 性 能 方面 与 事务 日 志 相 
似 了 。 然 而 ， 二 进 制 日 志 存 储 跟 数据 放 在 不 同 的 卷 ， 实 际 上 是 一 个 好 
主意 一 一 把 它们 分 开 存放 更 安全 ， 因 此 即使 数据 丢失 ， 二 进 制 日 志 
可 以 保存 下 来 。 这 样 ， 可 以 使 用 二 进 制 日 志 做 基于 时 间 点 的 恢复 。 这 
方面 的 考虑 并 不 适用 于 InnoDB 的 事务 日 志 ， 因 为 没有 数据 文件 ， 它 们 
就 没 用 了 ， 你 不 能 将 事务 日 志 应 用 到 昨 晚 的 备份 。 (事务 日 志和 二 进 
制 日 志 之 间 的 区 别 在 其 他 数据 库 的 DBA 看 来 ， 很 难 搞 明 白 ， 在 其 他 数 
据 库 这 就 是 同一 个 东西 。) 


另外 一 个 常见 的 场景 是 分 离 出 临时 目录 的 文件 ，MySQL 做 filesorts 
(文件 排序 ) 和 使 用 磁盘 临时 表 时 会 写 到 临时 目录 。 如 果 这 些 文件 不 
会 太 大 的 话 ， 最 好 把 它们 放 在 临时 内 存 文件 系统 ， 如 tmpfs。 这 是 速度 
最 快 的 选择 。 如 果 在 你 的 系统 上 这 不 可 行 ， 就 把 它们 放 在 操作 系统 盘 
Ès 


典型 的 磁盘 布局 是 有 操作 系统 盘 、 交 换 分 区 和 二 进 制 日 志 的 盘 
它们 放 在 RAID 1 卷 上 。 还 要 有 一 个 单独 的 RAID 5 或 RAID 10 卷 ， 放 其 
他 的 一 切 东 西 。 


99 ”网 络 配置 


就 像 延 迟 和 吞吐 量 是 硬盘 驱动 器 的 限制 因素 一 样 ， 延 迟 和 融 宽 
(实际 上 和 吞吐 量 是 同一 回 事 ) 也 是 网 络 连接 的 限制 因素 。 对 于 大 多 
数 应 用 程序 来 说 ， 最 大 的 问题 是 延 时 。 典 型 的 应 用 程序 都 需要 传输 很 
多 很 小 的 网 络 包 ， 并 且 每 次 传输 的 轻微 延迟 最 终 会 被 累加 起 来 。 


运行 不 正常 的 网 络 通 音 也 是 主要 的 性 能 瓶颈 之 一 。 丢 包 是 一 个 普 
遍 存 在 的 问题 。 即 使 1% 的 丢 包 率 也 足以 造成 显著 的 性 能 下 降 ， 因 为 在 
协议 栈 的 各 个 层次 都 会 利用 各 种 策略 尝试 修复 问题 ， 例 如 等 待 一 段 时 
间 再 重新 发 送 数 据 包 ， 这 就 增加 了 额外 的 时 间 。 另 一 个 常见 的 问题 是 
域名 解析 系统 (DNS) 损坏 或 者 变 慢 了 。 


DNS 足 以 称 为 “ 阿 基 里 斯 之 唾 ?， 因 此 在 生产 服务 器 上 启用 
skip_name_resolve 是 个 好 主意 。 损 坏 或 缓慢 的 DNS 解析 对 许多 应 用 程 
序 都 是 个 问题 ， 对 MySQL 尤 为 严重 。 当 MySQL 收 到 一 个 连接 请 求 
时 ， 它 同时 需要 做 正 向 和 反 向 DNS 查 找 。 有 很 多 原因 可 能 导致 这 个 过 
程 出 问题 。 当 问题 出 现时 ， 会 导致 连接 被 拒绝 ， 或 者 使 得 连接 到 服务 
器 的 过 程 变 慢 ， 这 通常 都 会 造成 严重 的 影响 ， 甚 至 相当 于 遭遇 了 拒绝 
服务 攻击 (DDOS) 。 如 果 启 用 skip_name_resolve 选 项 ，MySQL 将 不 
会 做 任何 DNS 查找 的 工作 。 然 而 ， 这 也 意味 着 ， 用 户 账户 必须 在 host 
列 使 用 具有 唯一 性 的 耳 地址, “localhost” 或 者 耳 地 址 通配符 。 那 些 在 
host 列 使 用 主机 名 的 用 户 账 户 都 将 不 能 登录 。 


典型 的 Web 应 用 中 另 一 个 常见 的 问题 来 源 是 TCP 积 压 ， 可 以 通过 
MySQL 的 back_log 选 项 来 配置 。 这 个 选项 控制 MySQL 的 传 入 TCP 连 接 
队列 的 大 小 。 在 每 秒 有 很 多 连接 创建 和 销毁 的 环境 中 ， 默 认 值 50 是 不 
够 的 。 设 置 不 够 的 症状 是 ， 客 户 端 会 看 到 零星 的 “连接 被 拒绝 ”的 错 
误 ， 配 以 三 秒 超时 规则 。 在 繁忙 的 系统 中 这 个 选项 通常 应 加 大 。 把 这 
个 选项 增加 到 数 百 甚至 数 千 ， 似 乎 没有 任何 副作用 ， 事 实 上 如 果 你 看 
得 远 一 些 ， 可 能 还 需要 配置 操作 系统 的 TCP 网 络 设置 。 在 GNU/Linux 
系统 ， 需 要 增加 somaxconn 限 制 ， 默 认 只 有 128， 并 且 需 要 检查 sysctl 的 
tcp_max_syn_back_log 设 置 (在 本 节 稍 后 有 一 个 例子 ) 。 


应 该 设计 性 能 良好 的 网 络 ， 而 不 是 仅仅 接受 默认 配置 的 性 能 。 首 
kK, 分析 节 点 之 间 有 多 少 跳 路 点 ， 以 及 物理 网 络 布局 之 间 的 映射 关 
系 。 例 如 ， 假 设 有 10 个 网 页 服务 器 ， 通 过 千 兆 以 太 网 (1 GigE) 连接 
到 “网 页 ?交换 机 ， 这 个 交换 机 也 通过 于 兆 网 络 连接 到 “数据 库 ? 交 换 
机 。 如 果 不 花 时 间 去 追踪 连接 ， 可 能 不 会 意识 到 从 所 有 数据 库 服务 器 
到 所 有 网 页 服务 器 的 总 带宽 是 有 限 的 ! 并 且 每 次 跨越 交换 机 都 会 增加 
延 时 。 


监控 网 络 性 能 和 所 有 网 络 端口 的 错误 是 正确 的 做 法 ， 要 监控 服务 
器 、 路 由 器 和 交换 机 的 每 个 端口 。 多 路 由 流量 绘图 器 (Multi Router 
Traffic Grapher) ， 或 者 说 MRTG (http://oss.oetiker.ch/mrtg/) ， 对 设备 
监控 而 言 是 个 靠得住 的 开源 解决 方案 。 其 他 常见 的 网 络 性 能 监控 工具 
(与 设备 监控 不 同 ) 还 有 Smokeping (http://oss.oetiker.ch/smokeping/) 
和 Cacti (http:Mwww.cactineb o 


网 络 物 理 隔 离 也 是 很 重要 的 因素 。 城 际 网 络 相 比 数据 中 心 的 局 域 
网 的 延迟 要 大 得 多 ， 即 使 从 技术 上 来 说 带宽 是 一 样 的 。 如 果 节 点 真 的 
相距 甚 远 ， 光 速 也 会 造成 影响 。 例 如 ， 在 美国 的 西部 和 东部 海岸 都 有 
数据 中 心 ， 相 隔 约 3000 公 里 。 光 的 速度 是 186000 米 每 秒 ， 因 此 一 次 通 
信 不 可 能 低 于 16 毫 秒 ， 往 返 至 少 需 要 32 毫 秒 。 物 理 距 离 不 仪 是 性 能 上 
的 考虑 ， 也 包括 设备 之 间 通 信 的 考虑 。 中 继 器 、 路 由 器 和 交换 机 ， 所 
有 的 性 能 都 会 有 所 降级 。 再 次 ， 越 广泛 地 分 隔 开 的 网 络 节点 ， 连 接 的 
不 可 预知 和 不 可 靠 因素 越 大 。 


尽 可 能 避免 实时 的 跨 数据 中 心 的 操作 是 明智 的 (所 。 如 果 不 可 能 做 
到 这 一 点 ， 也 应 该 确保 应 用 程序 能 正常 处 理 网 络 故 障 。 例 如 ， 我 们 不 
希望 看 到 由 于 Web 服 务 器 通过 丢 包 严 重 的 网 络 连接 远程 的 数据 中 心 
时 ， 由 于 Apache 进 程 挂 起 而 新 建 了 很 多 进程 的 情况 发 生 。 


在 本 地 ， 请 至 少 用 千 兆 网 络 。 骨 干 交 换 机 之 间 可 能 需要 使 用 万 光 
以 太 网 。 如 果 需 要 更 大 的 带宽 ， 可 以 使 用 网 络 链 路 聚合 : 连接 多 个 网 
F (NIC) ， 以 获得 更 多 的 带宽 。 链 路 聚合 本 质 上 是 并 行 网 络 ， 作 为 
高 可 用 策略 的 一 部 分 也 很 有 帮助 。 


如 果 需 要 非常 高 的 吞吐 量 ， 也 许可 以 通过 改变 操作 系统 的 网 络 配 
置 来 提高 性 能 。 如 果 连 接 不 多 ， 但 是 有 很 多 的 查询 和 很 大 的 结果 集 ， 
则 可 以 增加 TCP 缓 冲 区 的 大 小 。 有 具体 的 实现 依赖 于 操作 系统 ， 对 于 大 
多 数 的 GNU/Linux 系 统 ， 可 以 改变 /etc/sysctl.conf 中 的 值 并 执行 sysctl- 
p， 或 者 使 用 /proc 文 件 系 统 写 入 一 个 新 的 值 到 /proc/sys/net/ 里 面 的 文 
件 。 搜 索 “TCP tuning guide”， 可 以 找到 很 多 好 的 在 线 教程 。 


然而 ， 调 整 设置 以 有 效 地 处 理 大 量 连接 和 小 查询 的 情况 通常 更 重 
要 。 比 较 常 见 的 调整 之 一 ， 就 是 要 改变 本 地 端口 的 范围 。 系 统 的 默认 
值 如 下 : 


[root@server ~]# cat /proc/sys/net/ipv4/ip_local port_range 


32768 61000 


有 时 你 也 许 需 要 改变 这 些 值 ， 调 整 得 更 大 一 些 。 例 如 : 


[root@server ~]# echo 1024 65535 > 


/proc/sys/net/ipv4/ip_local_port_range 


如 果 要 允许 更 多 的 连接 进入 队列 ， 可 以 做 如 下 操作 : 


[root@server ~]# echo 4096 > 


/proc/sys/net/ipv4/tcp_max_syn_backlog 


对 于 只 在 本 地 使 用 的 效 据 库 服 务 器 ， 对 于 连接 端 还 未 断 开 ， 但 是 
通信 已 经 中 断 的 事件 中 使 用 的 套 接 字 ， 可 以 缩短 TCP 保 持 状态 的 超时 
时 间 。 在 大 多 数 系统 上 默认 是 一 分 钟 ， 这 个 时 间 太 长 了 : 


[root@server ~]# echo <value> > 


/proc/sys/net/ipv4/tcp_fin_timeout 


这 些 设置 大 部 分 时 间 可 以 保留 默认 值 。 通 常 只 有 当 发 生 了 特殊 情 
况 ， 例 如 网 络 性 能 极 差 或 非常 大 量 的 连接 ， 才 需要 进行 修改 。 在 互联 
网 上 搜索 “TCP variables”， 可 以 发 现 很 多 不 错 的 阅读 资料 ， 除 了 上 面 
是 到 的 ， 还 能 看 到 很 多 其 他 的 变量 。 


9.10 ”选择 操作 系统 


GNU/Linux 如 今 是 高 性 能 MySQL 最 常用 的 操作 系统 ， 但 是 MySQL 
本 身 可 以 运行 在 很 多 操作 系统 上 。 


Solaris 是 SPARC 硬 件 上 的 领跑 者 ， 在 x86 硬 件 上 也 可 以 运行 。 
Solaris 常 用 在 要 求 高 可 靠 的 应 用 上 面 。Solaris 在 某 些 方面 的 易 用 性 可 
能 没有 GNU/Linux 的 名 气 大 ， 但 确实 是 一 个 坚固 的 操作 系统 ， 包 含 许 
多 先进 的 功能 。 尤 其 是 Solaris 10 增 加 了 ZFS 文 件 系统 ， 包 含 了 很 多 先 


进 的 故障 排除 工具 (如 DTrace) 、 良 好 的 多 线程 性 能 ， 以 及 称 为 
Solaris Zones 的 虚拟 化 技术 ， 有 助 于 资源 管理 。 


FreeBSD 是 另 一 种 选择 。 它 历来 与 MySQL 配 合 有 一 些 问题 ， 大 多 
时 候 都 涉及 到 线程 支持 ， 但 新 的 版 本 要 好 得 多 。 如 今 ， 看 到 MySQL 在 
FreeBSD 上 大 规模 部 署 的 场景 并 不 是 什么 稀罕 事 。ZFS 也 可 以 在 
FreeBSD 上 使 用 。 


通常 用 于 开发 和 桌面 应 用 程序 的 MySQL 选 择 的 是 windows。 也 有 
企业 级 的 MySQL 部 署 在 Windows 上 ， 但 一 般 的 企业 级 MySQL 更 多 的 还 
是 部 署 在 类 UNIX 操 作 系统 上 。 我 们 不 希望 引起 任何 有 关 操 作 系统 的 争 
论 ， 需 要 指出 的 是 在 异 构 操作 系统 环境 中 使 用 MySQL 是 不 存在 问题 
的 。 在 类 UNIX 的 操作 系统 上 运行 的 MySQL 服 务 器 ， 同 时 在 Windows 
上 运行 web 服务器， 然后 通过 高 品质 的 .NET 连 接 器 (这 是 MySQL 免 费 
提供 的 ) 进行 连接 ， 这 是 一 个 非常 合理 的 架构 。 从 UNIX 连 接 到 
Windows 上 的 MySQL 服 务 器 和 连接 到 另 一 台 UNIX 上 的 MySQL 服 务 器 
一 样 简单 。 


当选 择 操作 系统 时 ， 如 果 使 用 的 是 64 位 架构 的 硬件 〈 见 前 面 介 绍 
的 “CPU 架构 ”) ， 请 确保 安装 的 是 64 位 版 本 的 操作 系统 。 


谈 到 GNU/Linux 发 行 版 时 ， 个 人 的 喜好 往往 是 决定 性 的 因素 。 我 
们 认为 最 好 的 策略 是 使 用 专 为 服务 器 应 用 程序 设计 的 发 行 版 ， 而 不 是 
桌面 发 行 版 。 要 考虑 发 行 版 的 生命 周期 、 发 布 和 更 新 政策 ， 并 检查 供 
应 商 的 支持 是 否 有 效 。 红 帽子 企业 版 Linux 是 一 个 高 品质 、 稳 定 的 发 行 
版 ;CentOS 是 一 个 受 欢迎 的 二 进 制 兼容 替代 品 (免费 ) ， 但 已 经 因为 
延 后 时 间 较 长 获得 了 一 些 批评 ; 还 有 Oracle 发 行 的 Oracle Enterprise 
Linux; 另外 ，Ubuntu 和 Debian 也 是 流行 的 发 行 版 。 


9.11 ”选择 文件 系统 


文件 系统 的 选择 非 单 依赖 于 操作 系统 。 在 许多 系统 中 ， 如 
Windows 就 只 有 一 到 两 个 选择 ， 而 且 只 有 一 个 (NTFS) 真 的 是 能 
的 。 比 较 而 言 ，GNU/Linux 则 支持 多 种 文件 系统 。 


许多 人 想 知道 哪个 文件 系统 在 GNU/Linux 上 能 提供 最 好 的 MySQL 
性 能 ， 或 者 更 具体 一 些 ， 哪 个 对 InnoDB 和 MyISAM 而 言 是 最 好 的 选 
择 。 实 际 的 基准 测试 表明 ， 大 多 数 文 件 系统 在 很 多 方面 都 非常 接近 ， 
但 测试 文件 系统 的 性 能 确实 是 一 件 烦心 事 。 文 件 系 统 的 性 能 是 与 工作 
负载 相关 的 ， 没 有 哪个 文件 系统 是 “ 银 弹 ”。 大 部 分 情况 下 ， 给 定 的 文 
件 系统 不 会 明显 地 表现 得 与 其 他 文件 系统 不 一 样 。 除 非 遇 到 了 文件 系 
统 的 限制 ， 例 如 ， 它 怎么 支持 并 发 、 怎 么 在 多 文件 下 工作 、 怎 么 对 文 
FIR, EF. 


要 考虑 的 更 重要 的 问题 是 骨 溃 恢复 时 间 ， 以 及 是 否 会 遇 到 特定 的 
限制 ， 如 目录 下 有 许多 文件 会 导致 运行 缓慢 (这 是 ext2 和 旧版 本 ext3 下 
一 个 臭名 昭著 的 问题 ， 但 当前 版 本 的 ext3 和 ext4 中 用 dir_index 选 项 解决 
了 问题 ) 。 文 件 系统 的 选择 对 确保 数据 安全 是 非常 重要 的 ， 所 以 我 们 
强烈 建议 不 要 在 生产 系统 做 实验 。 


如 果 可 能 ， 最 好 使 用 日 志文 件 系 统 ， 例 如 ext3、ext4、XFS、ZFS 
或 者 JFS。 如 果 不 这 么 做 ， 骨 溃 后 文件 系统 的 检查 可 能 耗费 相当 长 的 时 
间 。 如 果 系 统 不 是 很 重要 ， 非 日 志文 件 系统 性 能 可 能 比 支持 事务 的 
好 。 例 如 ，ext2 可 能 比 ext3 工 作 得 好 ， 或 者 可 以 使 用 tune 大 关闭 ext3 的 

志 记 录 功 能 。 挂 载 时 间 对 某 些 文件 系统 也 是 一 个 因素 。 例 如 ， 


ReiserFS ， 在 一 个 大 的 分 区 上 可 能 用 很 长 时 间 来 挂 载 和 执行 日 志 恢 
a 


如 果 使 用 ext3 或 者 其 继承 者 ext4， 有 三 个 选项 来 控制 数据 怎么 记 日 
志 ， 这 可 以 放 在 /etc/fstab 中 作为 挂 载 选项 : 


data=writeback 


这 个 选项 意味 着 只 有 元 数据 写 入 日 志 。 元 数据 写 入 和 数据 写 
入 并 不 同步 。 这 是 最 快 的 配置 ， 对 InnoDB 来 说 通常 是 安全 的 ， 因 
为 InnoDB 有 目 己 的 事务 日 志 。 唯 一 的 例外 是 ， 朋 溃 时 恰好 导 
致 .rm 文件 损坏 了 。 


这 里 给 出 一 个 使 用 这 个 配置 可 能 导致 问题 的 例子 。 当 程序 决 
定 扩展 一 个 文件 使 其 更 大 ， 元 数据 (文件 大 小 ) 会 在 数据 实际 写 
到 (BAW) 文件 之 前 记录 并 写 下 操作 情况 。 结 果 就 是 文件 的 尾 
会 包含 垃圾 数据 。 


data=ordered 


这 个 选项 也 只 会 记录 元 数据 ， 但 提供 了 一 些 一 致 性 保证 ， 在 
写 元 数据 之 前 会 先 写 数据 ， 使 它们 保持 一 致 。 这 个 选项 只 是 略微 
比 writeback 选 项 慢 ， 但 是 有 骨 溃 时 更 安全 。 


在 此 配置 中 ， 如 果 我 们 再 次 假设 程序 想 要 扩展 一 个 文件 ， 该 
文件 的 元 数据 将 不 能 反映 文件 的 新 大 小 ， 直 到 驻 留 在 新 扩展 区 域 
中 的 数据 被 瑟 到 文件 中 了 。 


data=journal 


此 选项 提供 了 原子 日 志 的 行为 ， 在 数据 写 入 到 最 终 位 置 之 前 
将 记录 到 日 志 中 。 这 个 选项 通常 是 不 必要 的 ， 它 的 开销 远 远 高 于 
其 他 两 个 选项 。 然 而 ， 在 某 些 情况 下 反而 可 以 提高 性 能 ， 因 为 日 
志 可 以 让 文件 系统 延迟 把 数据 写 入 最 终 位 置 的 操作 。 


不 管 哪 种 文件 系统 ， 都 有 一 些 特 定 的 选项 最 好 禁用 ， 因 为 它们 没 
有 提供 任何 好 处 ， 反 而 增加 了 很 多 开销 。 最 有 名 的 是 记录 访问 时 间 的 
选项 ， 甚 至 读 文 件 或 目录 时 也 要 进行 一 次 与 操作 。 在 /etc/fstab 中 添加 
noatime、nodiratime 挂 载 选项 可 以 禁用 此 选项 ， 这 样 做 有 时 可 以 提高 
5%~10% 的 性 能 ， 具 体 取决 于 工作 负载 和 文件 系统 (虽然 在 其 他 场景 
下 差别 可 能 不 是 太 大 ) 。 下 面 是 /etc/fstab 中 的 一 个 例子 ， 对 ext3 选 项 做 
设置 的 行 : 


/dev/sda2 /usr/lib/mysql ext3 


noatime, nodiratime, data=writeback 0 1 


还 可 以 调整 文件 系统 的 预 读 的 行为 ， 因 为 这 可 能 也 是 多 余 的 。 例 
如 ，InoDB 有 自己 的 预 读 策略 ， 所 以 文件 系统 的 预 读 就 是 重复 多 余 
的 。 禁 用 或 限制 预 读 对 Solaris 的 UFS 尤 其 有 利 。 使 用 O_DIRECT 选 项 会 
自动 禁用 预 读 。 


一 些 文件 系统 可 能 不 支持 某 些 需要 的 功能 。 例 如 ， 若 让 InnoDB 使 
用 O_DIRECT 刷 新 方式 ， 文 件 系统 能 支持 Direct IO 是 非常 重要 的 。 此 
外 ， 一 些 文件 系统 处 理 大 量 底层 驱动 器 比 其 他 的 文件 系统 更 好 ， 举 例 
来 说 XFS 在 这 方面 通常 比 ext3 好 。 最 后 ， 如 果 打 算 使 用 LVM 快 照 来 初 
始 化 备 库 或 进行 备份 ， 应 该 确认 选择 的 文件 系统 和 LVM 版 本 能 很 好 地 
协同 工作 。 


表 9-4 示 些 单 见 文 件 系统 的 特性 总 结 。 


表 9-4: 常见 文件 系统 特性 


文件 系统 操作 系统 支持 日 志 大 目录 


UFS 
(FreeBSD) 


UFS2 FreeBSD As 可 选 /部 分 
XE 
Xe 


FreeBSD a 可 选 /部 分 


ZFS Solaris， 是 


FreeBSD | 


我 们 通常 建议 客户 使 用 XFS 文 件 系统 。ext3 文 件 系统 有 太 多 严重 
的 限制 ， 例 如 inode 只 有 一 个 互 斥 变量 ， 并 且 fsyncO 时 会 刷新 所 有 及 
块 ， 而 不 只 是 单个 文件 。 很 多 人 感觉 ext4 文 件 系统 用 在 生产 环境 有 点 
太 新 了 ， 不 过 现在 似乎 正 日 益 普及 。 


9.12 ”选择 磁盘 队列 调度 策略 


在 GNU/Linux 上 ， 队 列 调度 决定 了 到 块 设备 的 请 求实 际 上 发 送 到 
底层 设备 的 顺序 。 默 认 情 况 下 使 用 cfq (Completely Fair Queueing， 完 
全 公平 排队 ) 策略 。 随 意 使 用 的 笔记 本 和 台式 机 使 用 这 个 调度 策略 没 
有 问题 ， 并 且 有 助 于 防止 WO 饥 饿 ， 但 是 用 于 服务 器 则 是 有 问题 的 。 在 
MySQL 的 工作 负载 类 型 下 ，cfq 会 导致 很 差 的 响应 时 间 ， 因 为 会 在 队 
列 中 延迟 一 些 不 必要 的 请 求 。 


可 以 用 下 面 的 命令 来 查看 系统 所 有 支持 的 以 及 当前 在 用 的 调度 策 
BE: 


$ cat /sys/block/sda/queue/scheduler 
noop deadline [cfq] 


这 里 sda 需 要 替换 成 想 查 看 的 磁盘 的 盘 符 。 在 我 们 的 例子 中 ， 方 括 
号 表示 正在 使 用 的 调度 策略 。cfq 之 外 的 两 个 选项 都 适合 服务 器 级 的 硬 
件 ， 并 且 在 大 多 数 情况 下 ， 它 们 工作 同样 出 色 。noop 调 度 适 合 没 有 自 
己 的 调度 算法 的 设备 ， 如 硬件 RAID 控 制 器 和 SAN。 deadline 则 对 RAID 


控制 器 和 直接 使 用 的 磁盘 都 工作 良好 。 我 们 的 基准 测试 显示 ， 这 两 者 
之 间 的 差异 非常 小 。 重 要 的 是 别 用 cfq， 这 可 能 会 导致 严重 的 性 能 问 


题 。 


不 过 这 个 建议 也 需要 有 所 保留 的 ， 因 为 磁盘 调度 策略 实际 上 在 不 
同 的 内 核 有 很 多 不 一 样 的 地 方 ， 千 万 不 能 望 文生 义 。 


9.13 ”线程 


MySQL 每 个 连接 使 用 一 个 线程 ， 另 外 还 有 内 部 处 理 线程 、 特 殊 用 
途 的 线程 ， 以 及 所 有 存储 引擎 创建 的 线程 。 在 MySQL 5.5 中 ，Oracle 提 
供 了 一 个 线程 池 插件 ， 但 目前 尚 不 清楚 在 实际 应 用 中 能 获得 什么 好 
处 。 


无 论 哪 种 方式 ，MySQL 都 需要 大 量 的 线程 才能 有 效 地 工作 。 
MySQL 确 实 需 要 内 核 级 线程 的 支持 ， 而 不 只 是 用 户 级 线程 ， 这 样 才能 
更 有 效 地 使 用 多 个 CPU。 另 外 也 需要 有 效 的 同步 原子 ， 例 如 互 斥 变 
量 。 操 作 系统 的 线程 库 必须 提供 所 有 的 这 些 功 能 。 


GNU/Linux 提 供 两 个 线程 库 : LinuxThreads 和 新 的 原生 POSIX 线 程 
库 (NPTL) 。LinuxThreads 在 某 些 情况 下 仍然 使 用 ， 但 现在 的 发 行 版 
已 经 切换 到 NPTL ， 并 且 大 部 分 应 用 已 经 不 再 加 载 LinuxThreads o 
NPTL 更 轻 量 ， 更 高 效 ， 也 不 会 有 那些 LinuxThreads 遇 到 的 问题 。 


FreeBSD 会 加 载 许 多 线程 库 。 从 历史 上 看 ， 它 对 线程 的 支持 很 
弱 ， 但 现在 已 经 变 得 好 多 了 ， 在 一 些 测试 中 ， 甚 至 优 于 SMP 系 统 上 的 
GNU/Linux. 在 FreeBSD 6 和 更 新 版 本 ， 推 荐 的 线程 库 是 libthr， 早 期 版 


本 使 用 的 Jinuxthreads， 是 FreeBSD 从 GNU/Linux 上 移植 的 LinuxThreads 
库 。 


通常 ， 线 程 问题 都 是 过 去 的 事 了 ， 现 在 GNU/Linux 和 FreeBSD 都 
提供 了 很 好 的 线程 库 。 


Solaris: 和 Windows 一 直 对 线程 有 很 好 的 支持 ， 尽 管 直到 5.5 发 布 之 
前 ，MyISAM 都 不 能 在 windows 下 很 好 地 使 用 线程 ， 但 5.5 里 有 显著 的 
提升 。 


9.14 “内存 交换 区 


当 操作 系统 因为 没有 足够 的 内 存 而 将 一 些 虚拟 内 存 写 到 磁盘 就 会 
发 生 内 存 交 换 人 名)。 内 存 交 换 对 操作 系统 中 运行 的 进程 是 透明 的 。 只 有 
操作 系统 知道 特定 的 虚拟 内 存 地 址 是 在 物理 内 存 还 是 硬盘 。 


内 存 交 换 对 MySQL 性 能 影响 是 很 糟糕 的 。 它 破坏 了 缓存 在 内 存 的 
目的 ， 并 且 相 对 于 使 用 很 小 的 内 存 做 缓存 ， 使 用 交换 区 的 性 能 更 差 。 
MySQL 和 存储 引 稳 有 很 多 算法 来 区 别 对 待 内 存 中 的 数据 和 硬盘 上 的 数 
据 ， 因 为 一 般 都 假设 内 存 数 据 访问 代价 更 低 。 


因为 内 存 交 换 对 用 户 进 程 不 可 见 ，MySQL (或 存储 引擎 ) 并 不 知 
道 数据 实际 上 已 经 移动 到 磁盘 ， 还 会 以 为 在 内 存 中 。 


结果 会 导致 很 差 的 性 能 。 例 如 ， 若 存储 引擎 认为 数据 依然 在 内 
存 ， 可 能 觉得 为 “短暂 ”的 内 存 操作 锁定 一 个 全 局 互 斥 变量 (例如 
InnoDB 缓 冲 池 Mutex) 是 OK 的 。 如 果 这 个 操作 实际 上 引起 了 硬盘 


IO， 直 到 IO 操作 完成 前 任何 操作 都 会 被 挂 起 。 这 意味 着 内 存 交 换 比 
直接 做 硬盘 1/O 操 作 还 要 糟 料 。 


在 GNU/Linux 上 ， 可 以 用 vmstat (在 下 一 部 分 展示 了 一 些 例子 ) 来 
监控 内 存 交 换 。 最 好 查看 si 和 so 列 报告 的 内 存 交 换 1O 活 动 ， 这 比 看 
swpd 列 报告 的 交换 区 利用 率 更 重要 。swpd 列 可 以 展示 那些 被 载 入 了 但 
是 没有 被 使 用 的 进程 ， 它 们 并 不 是 真 的 会 成 为 问题 。 我 们 喜欢 si 和 so 
列 的 值 为 0， 并 且 一 定 要 保证 它们 低 于 每 秒 10 个 块 。 


极端 的 场景 下 ， 太 多 的 内 存 交 换 可 能 导致 操作 系统 交换 空间 洲 
出 。 如 果 发 生 了 这 种 情况 ， 缺 乏 虚 拟 内 存 可 能 让 MySQL 骨 溃 。 但 是 即 
使 交换 空间 没有 溢出 ， 非 常 活跃 的 内 存 交 换 也 会 导致 整个 操作 系统 变 
得 无 法 响应 ， 到 这 种 时 候 甚至 不 能 登录 系统 去 杀 掉 MySQL 进 程 。 有 时 
当 交 换 空 间 溢 出 时 ， 甚 至 Linux 内 核 都 会 完全 hang 住 。 


绝 不 要 让 系统 的 虚拟 内 存 溢出 ! 对 交换 空间 利用 率 做 好 监控 和 报 
警 。 如 果 不 知 道 需 要 多 少 交 换 空 间 ， 就 在 硬盘 上 尽 可 能 多 地 分 配 空 
间 ， 这 不 会 对 性 能 造成 冲击 ， 只 是 消耗 了 硬盘 空间 。 有 些 大 的 组 织 清 
楚 地 知道 内 存 消 耗 将 有 多 大 ， 并 且 内 存 交 换 被 非常 严格 地 控制 ， 但 是 
对 于 只 有 少量 多 用 途 的 MySQL 实 例 ， 并 且 工 作 负载 也 多 种 多 样 的 环 
境 ， 通 常 不 切实 际 。 如 果 后 者 的 描述 更 符合 实际 情况 ， 确 认 给 服务 器 
一 些 “ 呼 吸 ” 的 空间 ， 分 配 足够 的 交换 空间 。 


在 特别 大 的 内 存 压力 下 经 单 发 生 的 另 一 件 事 是 内 人 存 不 足 
(OOM) ， 这 会 导致 踢 掉 和 杀 掉 一 些 进程 。 在 MySQL 进程 这 很 常 
见 。 在 另外 的 进程 上 也 挺 常 匈 ， 比 如 SSH， 甚 至 会 让 系统 不 能 从 网 络 
访问 。 可 以 通过 设置 SSH 进 程 的 oom_adj 或 oom_score_adj 值 来 避免 这 种 


情况 。 


可 以 通过 正确 地 配置 MySQL 缓 冲 来 解决 大 部 分 内 存 交 换 问 题 ， 但 
是 有 时 操作 系统 的 虚拟 内 存 系统 还 是 会 决定 交换 MySQL 的 内 存 。 这 通 
常 发 生 在 操作 系统 看 到 MySQL 发 出 了 大 量 /O， 因 此 尝试 增加 文件 组 
存 来 保存 更 多 数据 时 。 如 果 没 有 足够 的 内 存 ， 有 些 东西 就 必须 被 交换 
出 去 ， 有 些 可 能 就 是 MySQL 本 身 。 有 些 老 的 Linux 内 核 版 本 也 有 一 些 
适得其反 的 优先 级 ， 导 致 本 不 应 该 被 交换 的 被 交换 出 去 ， 但 是 在 最 近 
的 内 核 都 被 缓解 了 。 


有 些 人 主张 完全 禁用 交换 文件 。 尽 管 这 样 做 有 时 在 某 些 内 核 拒 绝 
工作 的 极端 场景 下 是 可 行 的 ， 但 这 降低 了 操作 系统 的 性 能 (在 理论 上 
不 会 ， 但 是 实际 上 会 的 ) 。 同 时 这 样 做 也 是 很 危险 的 ， 因 为 茶 用 内 存 
交换 就 相当 于 给 虚拟 内 存 设置 了 一 个 不 可 动 播 的 限制 。 如 果 MySQL 需 
要 临时 使 用 很 大 一 块 内 存 ， 或 者 有 很 耗 内 存 的 进程 运行 在 同一 台 机 器 

(如 夜间 批量 任务 ，MySQL 可 能 会 内 存 溢 出 、 骨 溃 ， 或 者 被 操作 系 


统 杀 死 。 


操作 系统 通常 允许 对 虚拟 内 存 和 IO 进行 一 些 控 制 。 我 们 提供 过 一 
些 GNU/Linux 上 控制 它们 的 办 法 。 最 基本 的 方法 是 修 
改 /proc/syswm/swappiness 为 一 个 很 小 的 值 ， 例 如 0 或 1。 这 告诉 内 核 除 
非 虚拟 内 存 完 全 满 了 ， 否 则 不 要 使 用 交换 区 。 下 面 是 如 何 检查 这 个 值 
的 例子 : 


$ cat /proc/sys/vm/swappiness 


60 


这 个 值 显示 为 60， 这 是 默认 的 设置 (范围 是 9~100) 。 对 服务 器 
而 言 这 是 个 很 糟糕 的 默认 值 。 这 个 值 只 对 笔记 本 适用 。 服 务 器 应 该 设 


置 为 0: 


$ echo 0 > /proc/sys/vm/swappiness 


另 一 个 选项 是 修改 存储 引擎 怎么 读 取 和 写 入 数据 。 例 如 ， 使 用 
innodb_flush_method=O_DIRECT ， 减 轻 /O 压 力 。Direct IO 并 不 缓 
存 ， 因 此 操作 系统 并 不 能 把 MySQL 视 为 增加 文件 缓存 的 原因 。 这 个 参 
数 只 对 InnoDB 有 效 。 你 也 可 以 使 用 大 页 ， 不 参与 换 入 换 出 。 这 对 
MyISAM 和 InnoDB 都 有 效 。 


另 一 个 选择 是 使 用 MySQL 的 memlock 配 置 项 ， 可 以 把 MySQL 锁 定 
在 内 存 。 这 可 以 避免 交换 ， 但 是 也 可 能 带 来 危险 : 如 果 没 有 足够 的 可 
锁定 内 存 ，MySQL 在 党 试 分 配 更 多 内 存 时 会 朋 溃 。 这 也 可 能 导致 锁定 
的 内 存 太 多 而 没有 足够 的 内 存留 给 操作 系统 。 


很 多 技巧 都 是 对 于 特定 内 核 版 本 的 ， 因 此 要 小 心 ， 尤 其 是 当 升级 
的 时 候 。 在 某 些 工作 负载 下 ， 很 难 让 操作 系统 的 行为 合情合理 ， 并 且 
仅 有 的 资源 可 能 让 缓冲 大 小 达 不 到 最 满意 的 值 。 


9.15 ”操作 系统 状态 


操作 系统 会 提供 一 些 帮助 发 现 操作 系统 和 硬件 正在 做 什么 的 工 
具 。 在 这 一 节 ， 我 们 会 展示 一 些 例 子 ， 包 括 关 于 怎样 使 用 两 个 最 常用 
的 工具 iostat 和 vmstat。 如 果 系 统 不 提供 它们 中 的 任何 一 个 ， 有 可 
能 提供 了 相似 的 替代 品 。 因 此 ， 我 们 的 目的 不 是 让 大 家 熟练 使 用 iostat 
和 vmstat， 而 是 告诉 你 用 类 似 的 工具 诊断 问题 时 应 该 看 什么 指标 。 


除了 这 些 ， 操 作 系统 也 许 还 提供 了 其 他 的 工具 ， 如 mpstat 或 者 
sar。 如 果 对 系统 的 其 他 部 分 感 兴趣 ， 例 如 网 络 ， 你 可 能 希望 使 用 
ifconfig (除了 其 他 信息 ， 它 能 显示 发 生 了 多 少 次 网 络 错误 ) 或 者 


netstato 


默认 情况 下 ，vmstat 和 iostat 只 是 生成 一 个 报告 ， 展 示 自 系统 启动 
以 来 很 多 计数 器 的 平均 值 ， 这 其 实 没 什么 用 。 然 而 ， 两 个 工具 都 可 以 
给 出 一 个 间隔 参数 ， 让 它们 生成 增 量 值 的 报告 ， 展 示 服 务 器 正在 做 什 
么 ， 这 更 有 用 。 (第 一 行 显示 的 是 系统 启动 以 来 的 统计 ， 通 常 可 以 忽 
略 这 一 行 。) 


9.15.1 ”如 何 阅读 vmstat 的 输出 


我 们 先 看 一 个 vmstat 的 例子 。 用 下 面 的 命令 让 它 每 5 秒 钟 打印 出 一 


TRG: 


$ vmstat 5 

PLIES os memory---------- --- swap-- -----io---- -system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
0 0 2632 25728 23176 740244 0 O S527 521 adi 310 186 3 
O O 2632 27808 23180 738248 0 0 2 430 222 66 2 097 0 


可 以 用 Ctrl+C 停 止 vmstate。 可 以 看 到 输出 依赖 于 所 用 的 操作 系统 ， 
因此 可 能 需要 阅读 一 下 手册 来 解读 报告 。 


刚 局 动 不 久 ， 即 使 采用 增 量 报告 ， 第 一 行 的 值 还 是 显示 目 系统 局 
动 以 来 的 平均 值 ， 第 二 行 开 始 展 示 现 在 正在 发 生 的 情况 ， 接 下 来 的 行 
会 展示 每 5 秒 的 间隔 内 发 生 了 什么 。 每 一 列 的 含义 在 头 部 ， 如 下 所 示 : 


procs 


一 列 显 示 了 多 少 进程 正在 等 待 CPU ，b 列 显示 多 少 进程 正 
We (通常 意味 着 它们 在 等 待 WO， 例 如 磁盘 、 网 
络 、 用 户 输入 ， 等 等 ) 。 


memory 


swpd 列 显示 多 少 块 被 换 出 到 了 磁盘 (页 面 交 换 ) 。 剩 下 的 三 
个 列 显 示 了 多 少 块 是 空间 的 未 被 使 用 ) 、 多 少 块 正 在 被 用 作 缓 
冲 ， 以 及 多 少 正在 被 用 作 操 作 系统 的 缓存 。 


swap 


这 些 列 显 示 页 面 交换 活动 : 每 秒 有 多 少 块 正在 被 换 入 〈 从 磁 
盘 ) 和 换 出 (到 磁盘 ) o 它们 比 监控 swpd 列 重要 多 了 。 


大 部 分 时 间 我 们 喜欢 看 到 si 和 so 列 是 0， 并 且 我 们 很 明确 不 希 
望 看 到 每 秒 超过 10 个 块 。 突 发 性 的 高 峰 一 样 很 糟糕 。 
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这 些 列 显示 有 多 少 块 从 块 设备 读 取 (bi) MSH (bo) o X 
通常 反映 了 硬盘 IO。 


system 
这 些 列 显示 了 每 秒 中 断 (in) 和 上 下 文 切换 (cs) 的 数量 。 


cpu 


这 些 列 显示 所 有 的 CPU 时 间 人 花费 在 各 类 操作 的 百分比 ， 包 括 
执行 用 户 代码 〈 非 内 核 ) 、 执 行 系统 代码 CA) . SA, UR 
等 待 TO。 如 果 正 在 使 用 虚拟 化 ， 则 第 五 个 列 可 能 是 ss， 显示 了 从 
虚拟 机 中 “ 偷 走 ” 的 百分比 。 这 关系 到 那些 虚拟 机 想 运 行 但 是 系统 
管理 程序 转 而 运行 其 他 的 对 象 的 时 间 。 如 果 虚 拟 机 不 希望 运行 任 
何 对 象 ， 但 是 系统 管理 程序 运行 了 其 他 对 象 ， 这 不 算 被 偷 走 的 
CPU 时 间 。 


vmstat 的 输出 跟 系 统 有 关 ， 所 以 如 果 看 到 跟 我 们 展示 的 例子 不 同 
的 输出 ， 应 该 阅读 系统 的 vmstat(8) 手 册 。 一 个 重要 的 提示 是 : AR, 
交换 区 ， 以 及 LO 统计 是 块 数 而 不 是 字 节 。 在 GNU/Linux， 块 大 小 通常 
是 1 024 字 节 。 


9.15.2 ”如 何 阅 读 iostat 的 输出 


现在 让 我 们 转移 到 iostat29)。 默 认 情 况 下 ， 它 显示 了 与 vmstat 相 同 
的 CPU 使 用 信息 。 我 们 通常 只 是 对 IO 统计 感 兴 趣 ， 所 以 使 用 下 面 的 命 
令 只 展示 扩展 的 设备 统计 : 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz 
avgqu-sz await svctm %util 


sda 1.6 2.8 2.5 1.8 138.8 36.9 40.7 


与 vmstat 一 样 ， 第 一 行 报 告 显示 的 是 自 系统 启动 以 来 的 平均 值 
(通常 删 掉 它 节省 空间 ) ， 然 后 接 下 来 的 报告 显示 了 增 量 的 平均 值 ， 
每 个 设备 一 行 。 


有 多 种 选项 显示 和 隐藏 列 。 官 方 文档 有 点 难以 理解 ， 因 此 我 们 必 
须 从 源码 中 挖掘 真正 显示 的 内 容 是 什么 。 说 明 的 列 信息 如 下 : 


rrqm/s 和 wrqm/s 


每 秒 合并 的 读 和 写 请 求 。“ 合 并 的 ”意味 着 操作 系统 从 队列 中 
拿 出 多 个 逻辑 请 求 合并 为 一 个 请 求 到 实际 磁盘 。 


r/s#w/s 
每 秒 发 送 到 设备 的 读 和 写 请 求 。 
rsec/s 和 wsec/s 


每 秒 读 和 写 的 扇 区 数 。 有 些 系统 也 输出 为 kB/s 和 wkB/s， 意 
为 每 秒 读 写 的 干 字 节 数 。 为 了 简洁 ， 我 们 省 略 了 那些 指标 说 明 。 


avgrq-sz 
Ta KAY Ba X 2X. 
avgqu-sz 
在 设备 队列 中 等 待 的 请 求 数 。 


await 


磁盘 排队 上 人 花费 的 坚 秒 数 。 很 不 幸 ，iostat 没 有 独立 统计 读 和 
写 的 请 求 ， 它 们 实际 上 不 应 该 被 一 起 平均 。 当 你 诊断 性 能 案例 时 
XEREZ, 


svctm 
服务 请 求 花 费 的 毫秒 数 ， 不 包括 排队 时 间 。 
%util 


至 少 有 一 个 活跃 请 求 所 占 时 间 的 百分比 。 如 果 熟 悉 队 列 理论 
中 利用 率 的 标准 定义 ， 那 么 这 个 命名 很 莫名 其 妙 。 它 其 实 不 是 设 
备 的 利用 率 。 超 过 一 块 硬盘 的 设备 (例如 RAID 控 制 器 ) 比 一 块 硬 
盘 的 设备 可 以 支持 更 高 的 并 发 ， 但 是 %util 从 来 不 会 超过 100%， 除 
非 在 计算 时 有 四 舍 五 入 的 错误 。 因 此 ， 这 个 指标 无 法 真实 反映 设 
备 的 利用 率 ， 实 际 上 跟 文档 说 的 相反 ， 除 非 只 有 一 块 物理 磁盘 的 
特殊 例子 。 


可 以 用 iostat 的 输出 推断 某 些 关于 机 器 MO 子 系统 的 实际 情况 。 一 
个 重要 的 度量 标准 是 请 求 服务 的 并 发 数 。 因 为 读 写 的 单位 是 每 秒 而 服 
务 时 间 的 单位 是 千 分 之 一 秒 ， 所 以 可 以 利用 利 特 尔 法 则 (Little's 
Law) 得 到 下 面 的 公式 ， 计 算出 设备 服务 的 并 发 请 求 数 G): 


concurrency = (r/s + w/s) * (svctm/1000) 


这 是 一 个 iostat 的 输出 示例 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-Ssz 
avgqu-Sz await svctm %util 


sda 105 311 298 820 3236 9052 10 


把 数字 带 入 并 发 公式 ， 可 以 得 到 差不多 9.6 的 并 发 性 3)。 这 意味 着 
在 一 个 采样 周期 内 ， 这 个 设备 平均 要 服务 9.6 次 的 请 求 。 例 子 来 目 于 一 
个 10 块 盘 的 RAID 10 卷 ， 所 以 操作 系统 对 这 个 设备 的 并 行 请 求 运行 得 
相当 好 。 另 一 万 面 ， 这 是 一 个 出 现 串 行 请 求 的 设备 : 


Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-Ssz 


avgqu-Sz await svctm %util 


并 发 公式 展示 了 这 个 设备 每 秒 只 处 理 一 个 请 求 。 两 个 设备 都 接近 
于 满 负 荷 利 用 ， 但 是 它们 的 性 能 表现 完全 不 一 样 。 如 果 设 备 一 直 都 像 
这 些 例子 展示 的 一 样 忙 ， 那 么 应 该 检查 一 下 并 发 性 ， 不 管 是 不 是 接近 
于 设备 中 的 物理 盘 数 ， 都 需要 注意 。 更 低 的 值 则 说 明 有 如 文件 系统 串 
行 的 问题 ， 就 像 我 们 前 面 讨论 的 。 


9.15.3 ”其 他 有 用 的 工具 


我 们 展示 vmstat 和 iostat 是 因为 它们 部 署 最 广泛 ， 并 且 vrmstat 通 常 默 
认 安 装 在 许多 类 UNIX 操 作 系统 上 。 然 而 ， 每 种 工具 都 有 自身 的 限制 ， 


例如 莫名 奇妙 的 度量 单位 、 当 操作 系统 更 新 统计 时 取样 间隔 不 一 致 ， 

以 及 不 能 一 次 性 看 到 所 有 重要 的 点 。 如 果 这 些 工 具 不 能 符合 需求 ， 你 

可 能 会 对 dstat (http://dag.wieers.com/home-made/dstat/ ) 或 collectl 
(http://collectl.sourceforge.net) RHR., 


我 们 也 喜欢 用 mpstat 来 观察 CPU 统计 ; 它 提 供 了 更 好 的 办 法 来 观 
察 CPU 每 个 工作 是 如 何 进 行 的 ， 而 不 是 把 它们 搅 在 一 块 。 有 时 在 诊断 
问题 时 这 非常 重要 。 当 分 析 硬 盘 WO 利 用 的 时 候 ，blktrace 可 能 也 非常 
有 用 。 


我 们 自己 开发 了 iostat 的 替代 品 ， 叫 做 pt-diskstats。 这 是 Percona 
Toolkit 的 一 部 分 。 它 解决 了 一 些 对 iostat 的 抱怨 ， 例 如 显示 读 写 统计 的 
方式 ， 以 及 缺乏 对 并 发 量 的 可 见 性 。 它 也 是 交互 式 的 ， 并 且 是 按键 驱 
动 的 ， 所 以 可 以 放大 缩小 、 改 变 聚 集 、 过 滤 设 备 ， 以 及 显示 和 隐藏 
列 。 即 使 没有 安装 这 个 工具 ， 也 可 以 通过 简单 的 Shell 脚 本 来 收集 一 些 
硬盘 统计 状态 ， 这 个 工具 也 支持 分 析 这 样 采 集 出 来 的 文本 。 可 以 抓 取 
一 些 硬 盘活 动 样本 ， 然 后 发 邮件 或 者 保存 起 来 ， 稍 后 分 析 。 实 际 上 ， 
我 们 第 3 章 中 介绍 的 pt-stalk、pt-collect、 和 pt-sift 三 件 套 ， 都 被 设计 得 
可 以 跟 pt-diskstats 很 好 地 配合 。 


9.15.4 CPU 密集 型 的 机 器 


CPU 密 集 型 服务 器 的 vmstat 输 出 通常 在 us 列 会 有 一 个 很 高 的 值 ， 报 
告 了 花费 在 非 内 核 代码 上 的 CPU 时 钟 ， 也 可 能 在 sy 列 有 很 高 的 值 ， 表 
示 系 统 CPU 利 用 率 ， 超 过 20% 就 足以 令 人 不 安 了 。 在 大 部 分 情况 下 ， 
也 会 有 进程 队列 排队 时 间 (在 r 列 报告 的 ) 。 下 面 是 一 个 例子 : 


$ vmstat 5 

procs ----------- memory---------- ---swap-- ----- io---- -- system-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
10 2 740880 19256 46068 13719952 O O 2788 11047 1423 14508 89 4 4 3 
11 0 740880 19692 46144 13702944 0 0 2907 14073 1504 23045 90 5 2 3 
7 1 740880 20460 46264 13683852 0 O 3554 15567 1513 24182 88 5 3 3 
10 2 740880 22292 46324 13670396 0 0 2640 16351 1520 17436 88 4 4 3 


注意 ， 这 里 也 有 合理 数量 的 上 下 文 切 换 (在 cs 列 ) ， 除 非 每 秒 超 
过 100000 次 或 更 多 ， 一 般 都 不 用 担心 上 下 文 切 换 。 当 操作 系统 停止 一 
个 进程 转 而 运行 另 一 个 进程 时 ， 就 会 产生 上 下 文 切换 。 


例如 ， 一 碍 询 语句 在 MYISAM 上 执行 了 一 个 非 覆 兰 索引 扫描 ， 融 
会 先 从 索引 中 读 取 元 素 ， 然 后 根据 索引 再 从 磁盘 上 读 取 页 面 。 如 果 页 
面 不 在 操作 系统 缓存 中 ， 就 需要 从 磁盘 进行 物理 读 取 ， 这 就 会 导致 上 
下 文 切 换 中 断 进程 处 理 ， 直 到 1/O 完 成 。 这 样 一 个 查询 可 以 导致 大 量 的 
上 下 文 切 换 。 


如 果 我 们 在 同一 台 机 器 观察 iostat 的 输出 《再 次 剔除 显示 启动 以 来 
平均 值 的 第 一 行 ) ， 可 以 发 现 磁盘 利用 率 低 于 50%: 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 


sda 0 3859 54 458 2063 34546 72 3 6 1 47 
dm-0 0 0 54 4316 2063 34532 8 18 4 0 47 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sda 0 2898 52 363 1767 26090 67 3 7i I 45 
dm-0 0 0 52 3261 1767 26090 8 15 5 0 45 


这 人 台 机 器 不 是 IO 密集 型 的 ， 但 是 依然 有 相当 数量 的 IO 发 生 ， 在 
数据 库 服务 器 中 这 种 情况 很 少见 。 另 一 方面 ， 传 统 的 Web 服务器 会 消 
耗 大 量 CPU 资 源 ， 但 是 很 少 发 生 MO ， 所 以 Web 服 务 器 的 输出 不 会 像 这 
个 例子 。 


9.155 LO 密集 型 的 机 器 


在 IO 密集 型 工作 负载 下 ，CPU 花 费 大 量 时 间 在 等 待 O 请 求 完 
成 。 这 意味 着 vmstat 会 显示 很 多 处 理 器 在 非 中 断 休眠 (b 列 ) 状态 ， 并 
且 在 wa 这 一 列 的 值 很 高 ， 下 面 是 个 例子 : 


$ vmstat 5 
proes = memory---------- ---sWap-- ----- 是 system-- ---- cpu---- 
r b swpd free buff cache si s bi bo in cs us sy id wa 


5 7 740632 22684 43212 13466436 0 
5 7 740632 22748 43396 13465436 0 
1 8 740632 22380 43416 13464192 0 
5 6 740632 22116 43512 13463484 0 


0 

0 6738 17222 1738 16648 19 3 15 63 
© 6150 17025 1731 16713 18 4 21 58 
O 4582 21820 1693 15211 16 4 24 56 
O 5955 21158 1732 16187 17 4 23 56 


这 人 台 机 器 的 iostat 输 出 显示 硬盘 一 直 很 忙 : 32) 


$ iostat -dx 5 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 


sda 0 5396 202 626 7319 48187 66 12 14 i 101 
dm-o 0 0 202 6016 7319 48130 8 57 9 0 101 
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util 
sda 0 5810 184 665 6441 51825 68 11 13 1 102 
dm-o 0 0 183 6477 6441 51817 8 54 7 0 102 


9%util 的 值 可 能 因为 四 舍 五 入 的 错误 超过 100%。 什 么 迹象 意味 着 机 
器 是 IO 密集 的 呢 ? 只 要 有 足够 的 缓冲 来 服务 写 请 求 ， 即 使 机 器 正在 做 
大 量 的 写 操作 ， 也 可 能 可 以 满足 ， 但 是 却 通 常 意味 着 硬盘 可 能 会 无 法 
满足 读 请 求 。 这 听 起 来 好 和 象 违 反 直 觉 ， 但 是 如 果 思 考 读 和 写 的 本 质 ， 
就 不 会 这 么 认为 了 : 


。 写 请 求 能 够 缓冲 或 同步 操作 。 它 们 可 以 被 我 们 本 书 讨 论 过 的 任意 
一 层 缓冲 : 操作 系统 层 、RAID 控 制 器 层 ， 等 等 。 

。 读 请 求 就 其 本 质 而 言 都 是 同步 的 。 当 然 程 序 可 以 猜测 到 可 能 需 
某 些 数据 ， 并 异步 地 提前 读 取 (UX) 。 无 论 如 何 ， 通 常 程 序 在 
继续 工作 前 必须 得 到 它们 需要 的 数据 。 这 就 强制 读 请 求 为 同步 操 
作 : 程序 必须 被 阻塞 直到 请 求 完成 。 


想 想 这 种 方式 : 你 可 以 发 出 一 个 写 请 求 到 缓冲 区 的 某 个 地 方 ， 然 
后 过 一 会 完成 。 甚 至 可 以 每 秒 发 出 很 多 这 样 的 请 求 。 如 果 缓 冲 区 正确 
工作 ， 并 且 有 足够 的 空间 ， 每 个 请 求 都 可 以 很 快 完成 ， 并 且 实 际 上 写 
到 物理 硬盘 是 被 重新 排序 后 更 有 效 地 批量 操作 的 。 然 而 ， 没 有 办 法 对 
读 操 作 这 么 做 一 一 不 管 多 小 或 多 少 的 请 求 ， 都 不 可 能 让 硬盘 响应 说 “这 
是 你 的 数据 ， 我 等 一 会 读 它 ”。 这 就 是 为 什么 读 需 要 1/O 等 待 是 可 以 理 
解 的 原因 。 


9.15.6 ”发 生 内 存 交 换 的 机 器 


一 台 正 在 发 生 内 存 交 换 的 机 器 可 能 在 swpd 列 有 一 个 很 高 的 值 ， 也 
可 能 不 高 。 但 是 可 以 看 到 si 和 so 列 有 很 高 的 值 ， 这 是 我 们 不 希望 看 到 
的 。 下 面 是 一 台 内 存 交 换 严 重 的 机 器 的 vmstat 输 出 : 


$ vmstat 5 

procs ----------- memory------------- --- sWap---- ----- forss 5 System-- ---- cpu---- 
r b swpd free buff cache si so bi bo in cs us sy id wa 
0 10 3794292 24436 27076 14412764 19853 9781 57874 9833 4084 8339 6 14 58 22 
4 11 3797936 21268 27068 14519324 15913 30870 40513 30924 3600 7191 6 11 36 47 
0 37 3847364 20764 27112 14547112 171 38815 22358 39146 2417 4640 6 8 977 


9.15.7 ”空闲 的 机 器 


为 完整 起 见 ， 下 面 也 给 出 一 台 空 内 机 器 上 的 vmstat 输 出 。 注 意 ， 
没有 在 运行 或 被 阻塞 的 进程 ，idle 列 显示 CPU 是 100% 的 空 南 。 这 个 例 
子 来 源 于 一 台 运 行 红 帽子 企业 版 Linux 5 (RHEL 5) 的 机 器 ， 并 且 st 列 
展示 了 从 “虚拟 机 ” 偷 来 的 时 间 。 


$ vmstat 5 

procs -----------memor Y---------- ---swa p== SEE 25 ystem-- -----c pu------ 
r b swpd free buff cache si so bi bo in cs us sy id wa st 
0 0 108 492556 6768 360092 0 O 345 209 2 65 2 0 97 1 0 
0 Oo 108 492556 6772 360088 o o 0 14 357 19 0 0100 0 0 
O 0 108 492556 6776 360084 0 0 0 6 355 16 0 0100 0 0 


916 BE 


为 MySQL 选 择 和 配置 硬件 ， 以 及 根据 硬件 配置 MySQL ， 并 不 是 
什么 神秘 的 艺术 。 通 常 ， 对 于 大 部 分 目标 需要 的 都 是 相同 的 技巧 和 知 
识 。 当 然 ， 也 需要 知道 一 些 MySQL 特 有 的 特点 。 


我 们 通常 建议 大 部 分 人 在 性 能 和 成 本 之 间 找 到 一 个 好 的 平衡 点 。 
首先 ， 出 于 多 种 原因 ， 我 们 喜欢 使 用 廉价 服务 器 。 举 个 例子 ， 如 果 在 
使 用 服务 器 的 过 程 中 遇 到 了 麻烦 ， 并 且 在 诊断 时 需要 停止 服务 ， 或 者 
希望 只 是 简单 地 把 出 问题 的 服务 器 用 另 一 台 替 换 ， 如 果 使 用 的 是 一 台 
$5000 的 廉价 服务 器 ， 肯 定 比 使 用 一 台 超过 $50000 或 者 更 贵 的 服务 器 要 
简单 得 多 。MySQL 通 常 也 更 适应 廉价 服务 器 ， 不 管 是 从 软件 自身 而 言 
还 是 从 典型 的 工作 负载 而 言 。 


MySQL 需 要 的 四 种 基本 资源 是 : CPU、 内存、 硬盘 以 及 网 络 资 
源 。 网 络 一 般 不 会 作为 很 严重 的 瓶颈 出 现 ， 而 CPU、 内 存 和 磁盘 通常 
是 主要 的 瓶颈 所 在 。 对 MySQL 而 言 ， 通 常 希 望 有 很 多 快速 CPU 可 以 
用 ， 但 如 果 必 须 在 快 和 多 之 间 做 选择 ， 则 一 般 会 选择 更 快 而 不 是 更 多 
(其 他 条 件 相同 的 情况 下 ) 。 


CPU、 内 存 以 及 磁盘 之 间 的 关系 错综复杂 ， 一 个 地 方 的 问题 可 能 
会 在 其 他 地 万 显现 出 来 。 在 对 一 个 资源 抛 出 问题 时 ， 问 问 上 自己 是 不 是 
可 能 是 由 另外 的 问题 导致 的 。 如 果 遇 到 硬盘 密集 的 操作 ， 需 要 更 多 的 


ORED? 或 者 是 更 多 的 内 存 ? 答案 取决 于 工作 集 大 小 ， 也 就 是 给 定 
的 时 间 内 最 凋 用 的 数据 集 。 


在 本 书写 作 的 过 程 中 ， 我 们 觉得 以 下 做 法 是 合理 的 。 首 先 ， 通 常 
不 要 超过 两 个 插 槽 。 现 在 即使 双 路 系统 也 可 以 提供 很 多 CPU 核 心 和 硬 
件 线程 了 ， 而 且 四 路 服务 器 的 CPU 要 贵 得 多 。 另 外 ， 四 路 CPU 的 使 用 
不 够 广泛 〈 也 就 意味 着 缺少 测试 和 可 靠 性 ) ， 并 且 使 用 的 是 更 低 的 时 
钟 频率 。 最 终 ， 四 路 插 模 的 系统 跨 插 槽 的 同步 开销 也 显著 增加 。 在 内 
存 方面 ， 我 们 喜欢 用 价格 经 济 的 服务 器 内 存 。 许 多 廉价 服务 器 目前 有 
18 个 DIMM 模 ， 单 条 8GB 的 DIMM 是 最 好 的 选择 一 一 每 GB 的 价格 与 更 
低 容量 的 DIMM 相 比 差不多 ， 但 是 比 16GB 的 DIMM 便 宜 多 了 。 这 是 为 
什么 我 们 今天 看 到 很 多 服务 器 是 144GB 的 内 存 的 原因 。 这 个 等 式 会 随 
着 时 间 的 变化 而 变化 可 能 有 一 天 具有 最 佳 性 价 比 的 是 16GB 的 
DIMM， 并 且 服 务 器 出 厂 的 内 存 槽 数量 也 可 能 不 一 样 一 一 但 是 一 般 的 
原则 还 是 一 样 的 。 


持久 化 存储 的 选择 本 质 上 归结 为 三 个 选项 ， 以 提高 性 能 的 次 序 排 
Fe: SAN、 传 统 硬盘 ， 以 及 固态 存储 设备 。 


。 当 需要 功能 和 纯粹 的 容量 时 ，SAN 是 不 错 的 。 它 们 对 许多 工作 负 
载 都 运行 得 不 错 ， 但 缺点 是 很 昂贵 ， 并 且 对 小 的 随机 IO 操作 有 很 
大 的 延 时 ， 尤 其 是 使 用 更 慢 的 互联 方式 (如 NFS) 或 工作 集 太 大 
不 足以 匹配 SAN 内 存 的 缓存 时 ， 延 时 会 更 大 。 要 注意 SAN 的 性 能 
突变 的 情况 ， 并 且 要 非常 小 心 避 免 灾 难 的 场景 。 

传统 硬盘 很 大 ， 便 宜 ， 但 是 对 随机 读 很 慢 。 对 大 部 分 场景 ， 最 好 
的 选择 是 服务 器 硬盘 组 成 RAID 10 卷 。 通 常 应 该 使 用 带 有 电池 保 
护 单元 的 RAID 控 制 器 ， 并 且 设 置 写 缓存 为 WriteBack 策 略 。 这 样 
一 个 配置 对 大 部 分 工作 负载 都 可 以 运行 良好 。 


。 固态 盘 相对 比较 小 并 且 昂 贵 ， 但 是 随机 MO 非常 快 。 一 般 分 为 两 
X: SSD 和 了 PCIe 设备。 广泛 地 来 说 ，SSD 更 便宜 ， 更 慢 ， 但 缺少 
可 靠 性 验证 。 需 要 对 SSD 做 RAID 以 提升 可 靠 性 ， 但 是 大 多 数 硬 件 
RAID 控 制 器 不 擅长 这 个 任务 人 3)。PCIe 设 备 很 昂贵 并 且 有 容量 限 
制 ， 但 是 非常 快 并 且 可 靠 ， 而 且 不 需要 RAID。 


固态 存储 设备 可 以 很 大 地 提升 服务 器 整体 性 能 。 有 时 候 一 个 不 算 
昂贵 的 SSD， 可 以 帮助 解决 经 党 在 传统 硬盘 上 遇 到 的 特定 工作 负载 的 
问题 ， 如 复制 。 如 果真 的 需要 很 强 的 性 能 ， 应 该 使 用 PCIe 设 备 。 增 加 
高 速 /O 设 备 会 把 服务 器 的 性 能 瓶颈 转移 到 CPU， 有 时 也 会 转移 到 网 
络 。 


MySQL 和 InnoDB 并 不 能 完全 发 挥 高 端 固态 存储 设备 的 性 能 ， 并 且 
在 某 些 场景 下 操作 系统 也 不 能 发 挥 。 但 是 提升 依然 很 明显 。Percona 
Server 对 固态 存储 做 了 很 多 改进 ， 并 且 很 多 改进 在 5.6 发 布 时 已 经 进入 
了 MySQL 主 干 代码 。 


对 操作 系统 而 言 ， 只 有 很 少 的 一 些 重要 配置 需要 关注 ， 大 部 分 是 
关于 存储 、 网 络 和 虚拟 内 存 管理 的 。 如 果 像 大 部 分 MySQL 用 户 一 样 使 
用 GNU/Linux， 建 议 采 用 XFS 文 件 系统 ， 并 且 为 服务 器 的 页 面 交 换 倾 
向 率 (swapiness) 和 硬盘 队列 调度 器 设置 恰当 的 值 。 有 一 些 网 络 参数 
需要 改变 ， 可 能 还 有 一 些 其 他 的 地 方 (例如 禁用 SELinux) 需要 调 
优 ， 但 是 前 面 说 的 那些 改动 的 优先 级 应 该 更 高 一 些 。 


(1) 普通 PC Server 也 能 配 到 192GB 内 存 。 一 一 译 者 注 
(2) 网 络 吞吐 也 是 一 种 UO。 一 -一 译 者 注 


(3) 超 线程 技术 。 译 者 注 

(4) 然而 ， 程 序 可 能 依赖 大 量 在 操作 系统 内 存 中 缓存 的 数据 ， 对 程序 来 党， 概念 上 属于 
“在 磁盘 上 ”的 数据 。 例 如 ，MyISAM 就 是 这 么 做 的 ， 它 把 数据 文件 放 在 磁盘 上 ， 并 通过 操作 
系统 缓存 磁盘 上 的 数据 ， 使 其 访问 速度 更 快 。 

(5) 正确 的 数字 是 11% 而 不 是 10%。10% 的 未 命中 率 对 应 90% 的 命中 率 ， 所 以 你 需要 用 
10GB 除 以 90%， 就 是 11.111GB。 

(6) 有 趣 的 是 ， 有 些 人 故意 买 更 大 容量 的 磁盘 ， 然 后 只 使 用 20%~30% 的 容量 。 这 增加 了 
数据 局 部 性 和 减少 寻 道 时 间 ， 有 时 可 以 证 明 值得 它们 高 的 价格 。 

(7) 5.6 也 可 以 按 库 做 多 线程 复制 。 译 者 注 

(8) 有 些 公司 声称 ， 他 们 抛弃 过 去 主轴 (机 械 ) 的 霸 绊 ， 从 一 个 干净 的 石板 开始 。 温 和 的 
怀疑 是 有 道理 的 ;解决 RDBMS 的 挑战 是 不 容易 的 。 

(9) 这 是 一 种 简化 ， 但 细节 在 这 里 并 不 重要 。 如 果 你 喜欢 ， 可 以 阅读 维基 百科 上 的 更 多 信 
息 。 

(10) 但 这 不 是 全 部 。 我 们 在 基准 测试 后 检查 了 了 驱动器， 并 且 发 现 两 块 SSD 坏 盘 ， 有 一 块 
不 一 致 。 

(11) 意思 就 是 内 存放 不 下 要 缓存 的 数据 时 ， 换 出 到 Flashcache 上 ，Flashache 的 闪存 设备 可 
以 帮助 继续 缓存 ， 而 不 会 立刻 落 到 磁盘 。 译 者 注 

(12) 分 区 (看 第 7 章 ) 是 另 一 个 好 办 法 ， 因 为 它 通 常 把 文件 分 成 多 份 ， 你 可 以 放 在 不 同 的 
磁盘 上 。 但 是 ， 相 对 于 分 区 ，RAID 对 于 很 大 数据 是 一 个 更 简单 的 解决 方案 。 这 不 需要 你 手动 
进行 负载 平衡 或 者 在 负载 分 布 发 生变 化 时 进行 干预 并且 可 以 提供 元 余 ， 而 你 不 能 把 分 区 文 
件 放 在 不 同 的 磁盘 。 

(13) 两 个 很 好 的 RAID 学 习 资 源 是 维基 百科 上 的 文章 (http://en.wikipedia.org/wiki/RAID) 
FIAC &NC 教 程 http://www.acnc.com/04_00.html。 

(14) 因为 读 取 并 不 需要 写 校 验 位 。 译 者 注 

(15) 意思 是 损失 一 块 盘 ， 读 取 的 时 候 本 来 可 以 从 相互 镜像 的 两 块 盘 中 同时 读 ， 少 了 一 块 


盘 就 只 能 从 另 一 块 镜像 盘 上 去 读 了 。 译 者 注 
(16) 尤其 是 SSD 盘 ， 同 时 损坏 的 可 能 性 是 比较 大 的 。 译 者 注 
(17) 例如 一 份 数据 的 两 个 镜像 就 在 这 两 个 盘 上 。 译 者 注 


(18) 就 是 每 个 服务 器 上 的 数据 都 会 被 业务 使 用 ， 没 有 机 器 作为 备用 的 。 译 者 注 

(19) 就 是 先 做 五 个 两 块 盘 的 RAID 1， 然 后 再 把 五 个 镜像 对 做 成 RAID 0， 形 成 RAID 10。 
一 一 译 者 注 

(20) 就 是 做 五 个 两 块 盘 的 RAID 1， 然 后 交 给 操作 系统 使 用 。 


译 者 注 


(21) 有 些 RAID 卡 不 支持 直接 做 RAID 10， 只 能 做 成 几 组 RAID 1， 然 后 由 操作 系统 LVM 再 
做 RAID 0， 最 终 形成 RAID 10。 译 者 注 


(22) 可 以 缓冲 随机 WO 部 分 合并 为 顺序 1/O。 
(23) 因为 没有 充分 地 合并 IO。 译 者 注 
(24) 有 几 种 技术 ， 包 括 电容 器 和 闪存 存储 ， 但 这 里 我 们 都 归结 到 BBU 这 一 类 。。 
(25) 就 是 fsync 只 是 刷新 到 了 硬盘 上 的 缓存 ， 这 个 缓存 是 没有 电池 的 ， 所 以 掉 电 会 丢失 数 
译 者 注 

(26) 基于 网 络 的 SAN 管 理 控制 台 坚 持 所 有 硬盘 驱动 器 是 健康 的 一 一 直到 我 们 要 求 管理 员 
按 Shift+F5 来 禁用 他 的 浏览 器 缓存 并 强制 刷新 控制 台 ! 

(27) 复制 不 算 实 时 跨 数 据 中 心 操作 ， 它 不 是 实时 的 ， 并 且 通 常 把 数据 复制 到 一 个 远程 位 
置 有 助 于 提升 数据 安全 性 ( 容 灾 ) 。 我 们 下 一 章 会 更 多 覆盖 这 个 内 容 。 

(28) 内 存 交 换 有 时 称 为 页 面 交 换 。 从 技术 上 来 说 ， 它 们 是 不 同 的 东西 ， 但 是 人 们 通常 把 
它们 作为 同义词 。 

(29) 我 们 本 书展 示 的 iostat 的 例子 为 了 印刷 被 稍微 重 排 了 : 我 们 减少 了 小 数位 来 避免 换 
行 。 我 们 是 在 GNU/Linux 上 展示 例子 。 其 他 操作 系统 输出 可 能 不 完全 一 样 。 

(30) 另 一 种 计算 并 发 的 方式 是 通过 平均 队列 大 小 、 服 务 时 间 ， 以 及 平均 等 待 时 间 : 

(avuqu_sz*svctm) /awaito 

(31) 如 果 你 做 这 个 计算 ， 会 得 到 大 约 10， 因 为 为 了 格式 化 我 们 已 经 取 整 了 iostat 的 输出 。 
相信 我 们 ， 确 实 是 9.6。 

(32) 在 书 的 第 二 版 中 ， 我 们 混淆 了 “总 是 很 忙 ? 和 “完全 饱和 ”。 总 是 在 做 事 的 硬盘 并 不 总 是 
达到 极限 ， 因 为 它们 可 能 也 能 支持 一 些 并 发 。 

(83) 有 些 RAID 控 制 器 对 SSD 支 持 很 差 ， 做 了 RAID 性 能 下 降 。 


译 者 注 


据 。 


译 者 注 


第 10 章 ”复制 


MySQL 内 建 的 复制 功能 是 构建 基于 MySQL 的 大 规模 、 高 性 能 应 
用 的 基础 ， 这 类 应 用 使 用 所 谓 的 “水 平 扩展 ”的 架构 。 我 们 可 以 通过 为 
服务 器 配置 一 个 或 多 个 备 库 册 的 方式 来 进行 数据 同步 。 复 制 功能 不 仅 
有 利于 构建 高 性 能 的 应 用 ， 同 时 也 是 高 可 用 性 、 可 扩展 性 、 灾 难 恢 
复 、 备 份 以 及 数据 仓库 等 工作 的 基础 。 事 实 上 ， 可 扩展 性 和 高 可 用 性 
通常 是 相关 联 的 话题 ， 我 们 会 在 接 下 来 的 三 章 详细 前 述 。 


本 章 将 阐述 所 有 与 复制 相关 的 内 容 ， 首 先 简要 介绍 复制 如 何 工 
作 ， 然 后 讨论 基本 的 复制 服务 搭建 ， 包 括 与 复制 相关 的 配置 以 及 如 何 
管理 和 优化 复制 服务 器 。 昌 然 本 书 的 主题 是 高 性 能 ， 但 对 于 复制 来 
说 ， 我 们 同样 需要 关注 其 准确 性 和 可 靠 性 ， 因 此 我 们 也 会 讲述 复制 在 
什么 情况 下 会 失败 ， 以 及 如 何 使 其 更 好 地 工作 。 


10.1 复制 概述 


复制 解决 的 基本 问题 是 让 一 台 服 务 器 的 数据 与 其 他 服务 器 保持 同 
步 。 一 台 主 库 的 数据 可 以 同步 到 多 人 台 备 库 上 ， 备 库 本 身 也 可 以 被 配置 
成 另外 一 台 服 务 器 的 主 库 。 主 库 和 备 库 之 间 可 以 有 多 种 不 同 的 组 合 方 
To 


MySQL 支 持 两 种 复制 方式 : 基于 行 的 复制 和 基于 语句 的 复制 。 基 
于 语句 的 复制 (也 称 为 逻辑 复制 ) 早 在 MySQL 3.23 版 本 中 就 存在 ， 而 
基于 行 的 复制 方式 在 5.1 版 本 中 才 被 加 进来 。 这 两 种 方式 都 是 通过 在 主 
库 上 记录 二 进 制 日 志 久 、 在 备 库 重 放 日 志 的 方式 来 实现 异步 的 数据 复 


制 。 这 意味 着 ， 在 同一 时 间 点 备 库 上 的 数据 可 能 与 主 库 存在 不 一 致 ， 
并 且 无 法 保证 主 备 之 间 的 延迟 。 一 些 大 的 语句 可 能 导致 备 库 产生 几 
秒 、 几 分 钟 甚至 几 个 小 时 的 延迟 。 


MySQL 复 制 大 部 分 是 向 后 兼容 的 ， 新 版 本 的 服务 器 可 以 作为 老 版 
本 服务 器 的 备 库 ， 但 反 过 来 ， 将 老 版 本 作为 新 版 本 服务 器 的 备 库 通常 
是 不 可 行 的 ， 因 为 它 可 能 无 法 解析 新 版 本 所 采用 的 新 的 特性 或 语法 ， 
另外 所 使 用 的 二 进 制 文件 的 格式 也 可 能 不 相同 。 例 如 ， 不 能 从 MySQL 
5.1 复 制 到 MySQL 4.0。 在 进行 大 的 版 本 升级 前 ， 例 如 从 4.1 升 级 到 5.0， 
或 从 5.1 升 级 到 5.5， 最 好 先 对 复制 的 设置 进行 测试 。 但 对 于 小 版 本 号 升 
级 ， 如 从 5.1.51 升 级 到 5.1.58， 则 通常 是 兼容 的 。 通 过 阅读 每 次 版 本 更 
新 的 ChangeLog 可 以 找到 不 同 版 本 间 做 了 什么 修改 。 


复制 通 妾 不 会 增加 主 库 的 开销 ， 主 要 是 局 用 二 进 制 日 志 囊 来 的 开 
销 ， 但 出 于 备份 或 及 时 从 骨 溃 中 恢复 的 目的 ， 这 点 开销 也 是 必要 的 。 
除 此 之 外 ， 每 个 备 库 也 会 对 主 库 增加 一 些 负载 〈 例 如 网 络 IO 开销 ) ， 
尤其 当 备 库 请 求 从 主 库 读 取 旧 的 二 进 制 日 志文 件 时 ， 可 能 会 造成 更 高 
的 WO 开销 。 另 外 锁 竞争 也 可 能 阻碍 事务 的 提交 。 最 后 ， 如 果 是 从 一 个 
高 吞吐 量 (例如 5000 或 更 高 的 TPS) 的 主 库 上 复制 到 多 个 备 库 ， 唤 醒 
多 个 复制 线程 发 送 事 件 的 开销 将 会 办 加 。 


通过 复制 可 以 将 读 操作 指向 备 库 来 获得 更 好 的 读 扩 展 ， 但 对 于 瑟 
操作 ， 除 非 设 计 得 当 ， 否 则 并 不 适合 通过 复制 来 扩展 写 操作 。 在 一 主 
库 多 备 库 的 架构 中 ， 写 操作 会 被 执行 多 次 ， 这 时 候 整 个 系统 的 性 能 
决 于 写 入 最 慢 的 那 部 分 。 


当 使 用 一 主 库 多 备 库 的 染 构 时 ， 可 能 会 造成 一 些 浪费 ， 因 为 本 质 
上 它 会 复制 大 量 不 必要 的 重复 数据 。 例 如 ， 对 于 一 台 主 库 和 10 台 备 


库 ， 会 有 11 份 数据 拷贝 ， 并 且 这 11 台 服务 器 的 缓存 中 存储 了 大 部 分 相 
同 的 数据 。 这 和 在 服务 器 上 有 11 路 RAID 1 类 似 。 这 不 是 一 种 经 济 的 硬 
件 使 用 方式 ， 但 这 种 复制 架构 却 很 常见 ， 本 章 我 们 将 讨论 解决 这 个 问 
题 的 方法 。 


10.1.1 复制 解决 的 问题 


下 面 是 复制 比较 常见 的 用 途 : 
数据 分 布 


MySQL 复 制 通常 不 会 对 带宽 造成 很 大 的 压力 ， 但 在 5.1 版 本 引 
入 的 基于 行 的 复制 会 比 传统 的 基于 语句 的 复制 模式 的 带宽 压力 更 
大 。 你 可 以 随意 地 停止 或 开始 复制 ， 并 在 不 同 的 地 理 位 置 来 分 布 
数据 备份 ， 例 如 不 同 的 数据 中 心 。 即 使 在 不 稳定 的 网 络 环境 下 ， 
远程 复制 也 可 以 工作 。 但 如 果 为 了 保持 很 低 的 复制 延迟 ， 最 好 有 
一 个 稳定 的 、 低 延迟 连接 。 


负载 均衡 


通过 MySQL 复 制 可 以 将 读 操 作 分 布 到 多 个 服务 器 上 ， 实 现 对 
读 密集 型 应 用 的 优化 ， 并 且 实 现 很 方便 ， 通 过 简单 的 代码 修改 就 
能 实现 基本 的 负载 均衡 。 对 于 小 规模 的 应 用 ， 可 以 简单 地 对 机 器 
名 做 硬 编码 或 使 用 DNS 轮 询 (将 一 个 机 器 名 指向 多 个 IP 地 址 ) 。 
当然 也 可 以 使 用 更 复杂 的 方法 ,例如 网 络 负载 均衡 这 一 类 的 标准 
负载 均衡 解决 方案 ， 能 够 很 好 地 将 负载 分 配 到 不 同 的 MySQL 服 务 


器 上 。Linux 虚 拟 服务 器 (Linux Virtual Server, LVS) 也 能 够 很 好 
地 工作 ， 第 11 章 将 详细 地 讨论 负载 均衡 。 


备份 
对 于 备份 来 说 ， 复 制 是 一 项 很 有 意义 的 技术 补充 ， 但 复制 既 
不 是 备份 也 不 能 够 取代 备份 。 
高 可 用 性 和 故障 切换 


复制 能 够 帮助 应 用 程序 避免 MySQL 单 点 失败 ， 一 个 包含 复制 
的 设计 腿 好 的 故障 切换 系统 能 够 显著 地 缩短 宕 机 时 间 ， 我 们 将 在 
第 12 章 讨论 故障 切换 。 


MySQL 升 级 测试 


这 种 做 法 比较 普遍 ， 使 用 一 个 更 高 版 本 的 MySQL 作 为 备 库 ， 
保证 在 升级 全 部 实例 前 ， 查 询 能 够 在 备 库 按照 预期 执行 。 


10.1.2 ”复制 如 何 工作 


在 详细 介绍 如 何 设置 复制 之 前 ， 让 我 们 先 看 看 MySQL 实 际 上 是 如 
何 复制 效 据 的 。 总 的 来 说 ， 复 制 有 三 个 步骤 : 


1. 在 主 库 上 把 数据 更 改 记录 到 二 进 制 日 志 (Binary Log) 中 〈 这 些 
记录 被 称 为 二 进 制 日 志 事件 ) o 

2. 备 库 将 主 库 上 的 日 志 复 制 到 自己 的 中 继 日 志 (Relay Log) 中 。 

3. 备 库 读 取 中 继 日 志 中 的 事件 ， 将 其 重 放 到 备 库 数 据 之 上 。 


以 上 只 是 概述 ， 实 际 上 每 一 步 都 很 复杂 ， 图 10-1 更 详细 地 描述 
复制 的 细节。 


图 10-1: MySQL 复 制 如 何 工作 


第 一 步 是 在 主 库 上 记录 二 进 制 日 志 〈 稍 后 介绍 如 何 设置 ) 。 在 每 
次 准备 提交 事务 完成 数据 更 新 前 ， 主 库 将 数据 更 新 的 事件 记录 到 二 进 
制 日 志 中 。MySQL 会 按 事务 提交 的 顺序 而 非 每 条 语句 的 执行 顺序 来 记 
录 二 进 制 日 志 。 在 记录 二 进 制 日 志 后 ， 主 库 会 告诉 存储 引擎 可 以 提交 
事务 了 。 


下 一 步 ， 备 库 将 主 库 的 二 进 制 日 志 复 制 到 其 本 地 的 中 继 日 志 中 。 
首先 ， 备 库 会 启动 一 个 工作 线程 ， 称 为 1/O 线 程 ，1/O 线 程 跟 主 库 建立 
一 个 普通 的 客户 端 连接 ， 然 后 在 主 库 上 启动 一 个 特殊 的 二 进 制 转 储 
(binlog dump) 线程 (该 线程 没有 对 应 的 SQL 命 令 ) ， 这 个 二 进 制 转 
储 线程 会 读 取 主 库 上 二 进 制 日 志 中 的 事件 。 它 不 会 对 事件 进行 轮 询 。 
如 果 该 线程 追赶 上 了 主 库 ， 它 将 进入 睡眠 状态 ， 直 到 主 库 发 送信 号 量 
通知 其 有 新 的 事件 产生 时 才 会 被 唤醒 ， 备 库 IO 线 程 会 将 接收 到 的 事件 
记录 到 中 继 日 志 中 。 


EMSAL 4.0 之 前 的 复制 与 之 后 的 版 本 相 比 改变 很 大 ， 例 如 MySQL 最 初 的 复制 功 


能 没有 使 用 中 继 日 志 ， 所 以 复制 只 用 到 了 两 个 线程 ， 而 不 是 现在 的 三 个 线程 。 目 前 大 部 分 人 
都 是 使 用 的 最 新 版 本 ， 因 此 在 本 章 我 们 不 会 去 讨论 关于 老 版 本 复制 的 更 多 细节 。 


备 库 的 SQL 续 程 执行 最 后 一 步 ， 该 线程 从 中 继 日 志 中 读 取 事 件 并 
在 备 库 执行 ， 从 而 实现 备 库 数 据 的 更 新 。 当 SQL 线 程 追赶 上 WO 线程 
时 ， 中 继 日 志 通 单 已 经 在 系统 缓存 中 ， 所 以 中 继 日 志 的 开销 很 低 。 
SQL 线程 执行 的 事件 也 可 以 通过 配置 选项 来 决定 是 否 写 入 其 自己 的 二 
进 制 日 志 中 ， 它 对 于 我 们 稍 后 提 到 的 场景 非常 有 用 。 


图 10-1 显 示 了 在 备 库 有 两 个 运行 的 线程 ， 在 主 库 上 也 有 一 个 运行 
的 线程 : 和 其 他 普通 连接 一 样 ， 由 备 库 发 起 的 连接 ， 在 主 库 上 同样 拥 
有 一 个 线程 。 


这 种 复制 染 构 实现 了 获取 事件 和 重 放 事件 的 解 看 ， 人 允许 这 两 个 过 
程 异步 进行 。 也 就 是 说 1/O 线 程 能 够 独立 于 SQL 线 程 之 外 工作 。 但 这 种 
染 构 也 限制 了 复制 的 过 程 ， 其 中 最 重要 的 一 点 是 在 主 库 上 并 发 运行 的 
查询 在 备 库 只 能 串 行 化 执行 ， 因 为 只 有 一 个 SQL 线程 来 重 放 中 继 日 志 
中 的 事件 。 后 面 我 们 将 会 看 到 ， 这 是 很 多 工作 负载 的 性 能 瓶颈 所 在 。 
虽然 有 一 些 针对 该 问题 的 解决 方案 ， 但 大 多 数 用 户 仍然 受制 于 单线 


程 。 


10.2 ”配置 复制 


为 MySQL 服 务 器 配置 复制 非常 简单 。 但 由 于 场景 不 同 ， 基 本 的 步 
又 还 是 有 所 差异 。 最 基本 的 场景 是 新 安装 的 主 库 和 备 库 ， 总 的 来 说 分 
为 以 下 几 步 : 


1. 在 每 台 人 ) 服 务 器 上 创建 复制 账号 。 
2. 配 置 主 库 和 备 库 。 
3. 通知 备 库 连 接 到 主 库 并 从 主 库 复制 数据 。 


这 里 我 们 假定 大 部 分 配置 采用 默认 值 即 可 ， 在 主 库 和 备 库 都 是 全 
新 安装 并 且 拥 有 同样 的 数据 (默认 MySQL 数 据 库 ) 时 这 样 的 假设 是 合 
理 的 。 接 下 来 我 们 将 展示 如 何 一 步 步 配置 复制 : 假设 有 服务 器 server1 
(IP 地 址 192.168.0.1) 和 服务 器 server2 (IP 地 址 192.168.0.2) ， 我 们 将 
解释 如 何 给 一 个 已 经 运行 的 服务 器 配置 备 库 ， 并 探讨 推荐 的 复制 配 
Bo 


10.2.1 创建 复制 账号 


MySQL 会 网 予 一 些 特殊 的 权限 给 复制 线程 。 在 备 库 运行 的 1/O 线 
程 会 建立 一 个 到 主 库 的 TCP/IP 连 接 ， 这 意味 着 必须 在 主 库 创建 一 个 用 
户 ， 并 赋予 其 合适 的 权限 。 备 库 1/O 线 程 以 该 用 户 名 连接 到 主 库 并 读 取 
其 二 进 制 日 志 。 通 过 如 下 语句 创建 用 户 账 号 : 


mysql> GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* 
-> TO repl1@'192.168.0.%' IDENTIFIED BY 'p4ssword', ; 


我 们 在 主 库 和 备 库 都 创建 该 账号 。 注 意 我 们 把 这 个 账户 限制 在 本 
地 网 络 ， 因 为 这 是 一 个 特权 账号 (尽管 该 账号 无 法 执行 select 或 修改 数 
据 ， 但 仍然 能 从 二 进 制 日 志 中 获得 一 些 数据 ) o 


wr“ 


“fy 复制 几 户 事实 上 只 需要 有 主 库 上 的 REPLICATION SLAVE 权 限 ， 并 不 一 定 需要 每 


端 服务 器 都 有 REPLICATION CLIENT 权限 ， 那 为 什么 我 们 要 把 这 两 种 权限 给 主 / 备 库 都 赋予 
Ve? 这 有 两 个 原因 : 


1. 用 来 监控 和 管理 复制 的 账号 需要 REPLICATION CLIENT 权限 ， 并 
且 针 对 这 两 种 目的 使 用 同一 个 账号 更 加 容易 (而 不 是 为 某 个 目的 
单独 创建 一 个 账号 ) 。 

2. 如 果 在 主 库 上 建立 了 账号 ， 然 后 从 主 库 将 数据 克隆 到 备 库 上 时 ， 
备 库 也 就 设置 好 了 一 一 变 成 主 库 所 需要 的 配置 。 这 样 后 续 有 需要 
可 以 方便 地 交换 主 备 库 的 角色 。 


10.2.2 ”配置 主 库 和 备 库 


下 一 步 需 要 在 主 库 上 开启 一 些 设置 ， 假 设 主 库 是 服务 器 Server1， 
需要 打开 二 进 制 日 志 并 指定 一 个 独一无二 的 服务 器 ID (server ID) ， 
在 主 库 的 my.cnf 文 件 中 增加 或 修改 如 下 内 容 : 


log_bin = mysql-bin 


server_id = 10 


实际 取 值 由 你 决定 ， 这 里 只 是 为 了 简单 起 见 ， 当 然 也 可 以 设置 更 
多 需要 的 配置 。 


必须 明确 地 指定 一 个 唯一 的 服务 器 ID ， 默 认 服 务 器 记 通 单 为 1 
《这 和 版 本 相关 ， 一 些 MySQL 版 本 根本 不 允许 使 用 这 个 值 ) 。 使 用 默 
认 值 可 能 会 导致 和 其 他 服务 器 的 ID 冲突 ， 因 此 这 里 我 们 选择 10 来 作为 


服务 器 ID。 一 种 通用 的 做 法 是 使 用 服务 器 下 地 址 的 末 8 人 位， 但 要 保证 它 
是 不 变 且 唯一 的 例如， 服务 器 都 在 一 个 子 网 里 ) 。 最 好 选择 一 些 有 
意义 的 约定 并 遵循 。 


如 果 之 前 没有 在 MySQL 的 配置 文件 中 指定 log-bin 选 项 ， 就 需要 重 
新 启动 MySQL。 为 了 确认 二 进 制 日 志文 件 是 否 已 经 在 主 库 上 创建 ， 使 
用 SHOW MASTER STATUS 命 令 ， 检查 输 出 是 否 与 如 下 的 一 致 。 
MySQL 会 为 文件 名 增加 一 些 数字 ， 所 以 这 里 看 到 的 文件 名 和 你 定义 的 
会 有 点 不 一 样 。 


mysql> SHOW MASTER STATUS; 


+------------------+----------+--------------+------------------+ 
+------------------+----------+--------------+------------------+ 


+------------------+----------+--------------+------------------+ 


1 row in set (0.00 sec) 


备 库 上 也 需要 在 my.cnf 中 增加 类 似 的 配置 ， 并 且 同 样 需要 重启 服 


务 器 。 


log_bin = mysql-bin 
server_id = 2 
relay_log = /var/lib/mysql/mysql-relay-bin| Chapter 


10:Chapter 10: Replication Replicationlog_slave_updates = 1 


read_only =1 


从 技术 上 来 说 ， 这 些 选 项 并 不 总 是 必要 的 。 其 中 一 些 选 项 我 们 只 
是 显 式 地 列 出 了 默认 值 。 事 实 上 只 有 server_id 是 必需 的 。 这 里 我 们 同 
样 也 使 用 了 log_bin， 并 赋予 了 一 个 明确 的 名 字 。 默 认 情 况 下 ， 它 是 根 
据 机 器 名 来 命名 的 ， 但 如 果 机 器 名 变化 了 可 能 会 导致 问题 。 为 了 简便 


起 见 ， 我 们 将 主 库 和 备 库 上 的 log-bin 设 置 为 相同 的 值 。 当 然 如 果 你 愿 
意 的话 ， 也 可 以 设置 成 别 的 值 。 


另外 我 们 还 增加 了 两 个 配置 选项 : relay_log (指定 中 继 日 志 的 位 
置 和 命名 ) 和 log_slave_updates (人 允许 备 库 将 其 重 放 的 事件 也 记录 到 自 
身 的 二 进 制 日 志 中 ) ， 后 一 个 选项 会 给 备 库 增加 额外 的 工作 ， 但 正如 
后 面 将 会 看 到 的 ， 我 们 有 理由 为 每 个 备 库 设 置 该 选项 。 


有 时 候 只 开局 了 二 进 制 日 志 ， 但 却 没 有 开局 log_slave_updates， 可 
能 会 碰 到 一 些 奇 怪 的 现象 ， 例 如 ， 当 配置 错误 时 可 能 会 导致 备 库 数 所 
被 修改 。 如 果 可 能 的 话 ， 最 好 使 用 read_only 配 置 选 项 ， 该 选项 会 阻止 
任何 没有 特权 权限 的 线程 修改 数据 (所 以 最 好 不 要 给 予 用 户 超出 需要 
的 权限 ) 。 但 read_only 选 项 常常 不 是 很 实用 ， 特 别 是 对 于 那些 需要 在 
备 库 建 表 的 应 用 。 


-E 个 要 在 配置 文件 my.cnf 中 设置 master_port 或 master_host 这 些 选项 ， 这 是 老 的 配置 


方式 ， 已 经 被 废弃 ， 它 只 会 导致 问题 ， 不 会 有 任何 好 处 。 


10.23 ”启动 复制 


下 一 步 是 告诉 备 库 如 何 连 接 到 主 库 并 重 放 其 二 进 制 日 志 。 这 一 步 
不 要 通过 修改 mycnf 来 配置 ， 而 是 使 用 CHANGE MASTER TO 语句 ， 
该 语句 完全 替代 了 mycnf 中 相应 的 设置 ， 并 且 允 许 以 后 指向 别 的 主 库 
时 无 须 重启 备 库 。 下 面 是 开始 复制 的 基本 命令 : 


mysql> CHANGE MASTER TO MASTER_HOST='server1', 


V 


MASTER_USER='repl', 


V 


V 


V 


MASTER_LOG_POS=0 ， 


MASTER_PASSWORD= 'p4ssword ' ， 


MASTER_LOG_FILE='mysql-bin.000001', 


MASTER LOG _POS 参 数 被 设置 为 0， 因 为 要 从 日 志 的 开头 读 起 。 
当 执 行 完 这 条 语句 后 ， 可 以 通过 SHOW SLAVE STATUS 语句 来 检查 复 


制 是 否 正确 执行 。 


mysql> SHOW SLAVE STATUS\G 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 1 


大 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


Slave_I0_State: 
Master_Host: 
Master_User: 
Master_Port: 

Connect_Retry: 
Master_Log_File: 
Read_Master_Log_Pos: 
Relay_Log_File: 
Relay_Log_Pos: 
Relay_Master_Log File: 
Slave_I0O_ Running: 


Slave_SQL_Running: 


Seconds _ Behind Master: 


row 


server1 

repl 

3306 

60 
mysql-bin.000001 
4 
mysql-relay-bin.000001 
4 
mysql-bin.000001 
No 

No 

...omitted... 


NULL 


Slave_IO_State, Slave_IO_Running 和 Slave a _Running 这 三 列 
显示 当前 备 库 复制 尚未 运行 。 聪 明 的 读者 可 能 已 经 注意 到 日 志 的 开头 
是 4 而 不 是 0， ERRAR TENSAEFENIN. 它 仅仅 意味 着 
“在 日 志文 件 头 ”，MySQL 知 道 第 一 个 事件 从 文件 的 第 4 位 外 开始 读 。 


运行 下 面 的 命令 开始 复制 |: 


mysql> START SLAVE; 


执行 该 命令 没有 显示 错误 ， 现 在 我 们 再 用 SHOW SLAVE STATUS 
5 . 


mysql> SHOW SLAVE STATUS\G 
FOI ICICI IOI IO ICICI IIR J. powy I a 
Slave_IO_ State: Waiting for master to send 
event 
Master_Host: servert 
Master_User: repl 
Master_Port: 3306 
Connect_Retry: 60 
Master_Log File: mysgql-bin.000001 
Read_Master_Log_Pos: 164 
Relay_Log_File: mysql-relay-bin.000001 
Relay_Log_Pos: 164 
Relay_Master_Log File: mysgql-bin.000001 


Slave_IO_ Running: Yes 


Slave_SQL_Running: Yes 
...omitted... 


Seconds _ Behind Master: 0 


从 输出 可 以 看 出 IO 线程 和 SQL 线程 都 已 经 开始 运行 ， 
Seconds_Behind_Master 的 值 也 不 再 为 NULL 《〈《 稍 后 再 解释 
Seconds_Behind_Master 的 含义 ) 。1/O 线 程 正在 等 待 从 主 库 传 递 过 来 的 
事件 ， 这 意味 着 1/O 线 程 已 经 读 取 了 主 库 所 有 的 事件 。 日 志 位 置 发 生 了 
变化 ， 表 明 已 经 从 主 库 获取 和 执行 了 一 些 事 件 (你 的 结果 可 能 会 有 所 
不 同 ) 。 如 果 在 主 库 上 做 一 些 数据 更 新 ， 就 会 看 到 备 库 的 文件 或 者 日 
志 位 置 都 可 能 会 增加 。 备 库 中 的 数据 同样 会 随 之 更 新 。 


我 们 还 可 以 从 线程 列表 中 看 到 复制 线程 。 在 主 库 上 可 以 看 到 由 备 
库 1/O 线 程 向 主 库 发 起 的 连接 。 


mysql> SHOW PROCESSLIST\G 


类 炎炎 炎炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 


大 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


Id: 55 
User: repl 
Host: replicai.webcluster_1:54813 
db: NULL 
Command: Binlog Dump 
Time: 610237 
State: Has sent all binlog to slave; waiting for binlog 
to be updated 
Info: NULL 


同样 ， 在 备 库 也 可 以 看 到 两 个 线程 ， 


线程 : 


一 个 是 IO 线程 ， 一 个 是 SQL 


mysql> SHOW PROCESSLIST\G 


类 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 
User: 
Host: 

db: 

Command: 
Time: 
State: 


Info: 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1. row 
1 
system user 
NULL 
Connect 
611116 
Waiting for master to send event 
NULL 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 2. row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 
User: 
Host: 

db: 

Command: 
Time: 


State: 


2 


system user 


NULL 
Connect 
33 


Has read all relay log; waiting for the slave I/0 


thread to update it 


Info: 


NULL 


这 些 简单 的 输出 来 自 一 台 已 经 运行 了 一 段 时 间 的 服务 器 ， 所 以 IO 
线程 在 主 库 和 备 库 上 的 Time 列 的 值 较 大 。SQL 线 程 在 备 库 已 经 空 闪 了 
33 秒 。 这 意味 着 33 秒 内 没有 重 放任 何事 件 。 


这 些 线程 总 是 运行 在 “system user” 账 号 下 ， 其 他 列 的 值 则 不 相 
同 。 例 如 ， 当 SQL 线程 回放 事件 时 ，Info 列 可 能 显示 正在 执行 的 查 
询 。 


] 


oe oe ; 
| as 如果 只 是 想 实 验 MySQL 的 复制 ，Giuseppe Maxia 的 MySQL 沙 箱 脚 本 


(http://mysqlsandbox.net) 能 够 帮助 你 从 一 个 之 前 下 载 的 安装 包 中 一 次 性 安装 。 通 过 如 下 命令 
只 需要 几 次 按键 和 大 约 15 秒 ， 就 可 以 运行 一 个 主 库 和 两 个 备 库 : 


$ ./set_replication.pl /path/to/mysql-tarball.tar.gz 


10.24 ”从 另 一 个 服务 器 开始 复制 


前 面 的 设置 都 是 假定 主 备 库 均 为 刚刚 安装 好 且 都 是 默认 的 数据 ， 
也 就 是 说 两 人 台 服 务 器 上 数据 相同 ， 并 且 知 道 当 前 主 库 的 二 进 制 日 志 。 
这 不 是 典型 的 案例 。 大 多 数 情况 下 有 一 个 已 经 运行 了 一 段 时 间 的 主 
库 ， 然 后 用 一 台新 安装 的 备 库 与 之 同步 ， 此 时 这 人 台 备 库 还 没有 数据 。 


有 几 种 办 法 来 初始 化 备 库 或 者 从 其 他 服务 器 克隆 数据 到 备 库 。 包 
括 从 主 库 复制 数据 、 从 另外 一 台 备 库 克 隆 数据 ， 以 及 使 用 最 近 的 一 次 
备份 来 局 动 备 库 ， 需 要 有 三 个 条 件 来 让 主 库 和 备 库 保持 同步 : 


。 TERR TAYE) RABY AVENE IR AR. 


。 主 库 当 前 的 二 进 制 日 志文 件 ， 和 获得 数据 快照 时 在 该 二 进 制 日 志 
文件 中 的 偏 移 量 ， 我 们 把 这 两 个 值 称 为 日 志文 件 坐标 (log file 
coordinates) 。 通 过 这 两 个 值 可 以 确定 二 进 制 日 志 的 位 置 。 可 以 
通过 SHOW MASTER STATUS 命令 来 获取 这 些 值 。 

。 从 快照 时 间 到 现在 的 二 进 制 日 志 。 


下 面 是 一 些 从 别 的 服务 器 克隆 备 库 的 方法 : 
使 用 冷 备 份 


最 基本 的 方法 是 关闭 主 库 ， 把 数据 复制 到 备 库 (高 效 复制 文 
件 的 方法 参考 附录 C) 。 重 启 主 库 后 ， 会 使 用 一 个 新 的 二 进 制 日 
志文 件 ， 我 们 在 备 库 通过 执行 CHANGE MASTER TO 指向 这 个 文 
件 的 起 始 处 。 这 个 方法 的 缺点 很 明显 : 在 复制 数据 时 需要 关闭 主 
库 。 


使 用 热 备 份 


如 果 仅 使 用 了 MyISAM 表 ， 可 以 在 主 库 运行 时 使 用 
mysqlhotcopy 或 rsync 来 复制 数据 ， 更 多 细节 参阅 第 15 章 。 


使 用 mysqldump 
如 果 只 包含 InnoDB 表 ， 那 么 可 以 使 用 以 下 命令 来 转 储 主 库 数 
据 并 将 其 加 载 到 备 库 ， 然 后 设置 相应 的 二 进 制 日 志 坐标 : 


$ mysqldump --single-transaction --all-databases --master- 


data=1--host=server1 \ 


| mysql --host=server2 


选项 --single-transaction 使 得 转 储 的 数据 为 事务 开始 前 的 数 
据 。 如 果 使 用 的 是 非 事 务 型 表 ， 可 以 使 用 --lock-all-tables 选 项 来 获 
得 所 有 表 的 一 致 性 转 储 。 


使 用 快照 或 备份 


只 要 知道 对 应 的 二 进 制 日 志 坐 标 ， 就 可 以 使 用 主 库 的 快照 或 
者 备份 来 初始 化 备 库 (如 果 使 用 备份 ， 需 要 确保 从 备份 的 时 间 点 
开始 的 主 库 二 进 制 日 志 都 要 存在 ) 。 只 需要 把 备份 或 快照 恢复 到 
备 库 ， 然 后 使 用 CHANGE MASTER TO 指定 二 进 制 日 志 的 坐标 。 
第 15 章 会 介绍 更 多 的 细节 ， 也 可 以 使 用 LVM 快 照 、SAN 快 照 、 


EBS 快 照 一 一 任何 快照 都 可 以 。 
使 用 Percona Xtrabackup 


Percona 的 Xtrabackup 是 一 款 开 源 的 热 备 份 工 具 ， 多 年 前 我 们 
就 介绍 过 。 它 能 够 在 备份 时 不 阻塞 服务 器 的 操作 ， 因 此 可 以 在 不 
影响 主 库 的 情况 下 设置 备 库 。 可 以 通过 克隆 主 库 或 另 一 个 已 存在 
的 备 库 的 方式 来 建立 备 库 。 


在 15 章 会 介绍 更 多 使 用 Percona Xtrabackup 的 细节 。 这 里 会 介 
绍 一 些 相关 的 功能 。 创 建 一 个 备份 (不管 是 从 主 库 还 是 从 别 的 备 
E) ， 并 将 其 转 储 到 目标 机 器 ， 然 后 根据 备份 获得 正确 的 开始 复 
制 的 位 置 。 


如 果 是 从 主 库 获 得 备份 ， 可 以 从 xtrabackup_binlog_pos_innodb 文 
件 中 获得 复制 开始 的 位 置 。 

如 果 是 从 另外 的 备 库 获得 备份 ， 可 以 从 xtrabackup_slave_info 文 件 
中 获得 复制 开始 的 位 置 。 


另外 ， 在 第 15 章 提 到 的 InnoDB 热 备份 和 MySQL 企 业 版 的 备 
份 ， 也 是 比较 好 的 初始 化 备 库 方式 。 


使 用 另外 的 备 库 


te 


可 以 使 用 任何 一 种 提 及 的 克隆 或 者 拷贝 技术 来 从 任意 一 台 备 
库 上 将 数据 克隆 到 另外 一 台 服 务 器 。 但 是 如 果 使 用 的 是 
mysqldump，--master-data 选 项 就 会 不 起 作用 。 


此 外 ， 不 能 使 用 SHOW MASTER STATUS 来 获得 主 库 的 二 进 
制 日 志 坐 标 ， 而 是 在 获取 快照 时 使 用 SHOW SLAVE STATUS 来 获 
取 备 库 在 主 库 上 的 执行 位 置 。 


使 用 另外 的 备 库 进行 数据 克隆 最 大 的 缺点 是 ， 如 果 这 人 台 备 库 
的 数据 已 经 和 主 库 不 同步 ， 克 隆 得 到 的 就 是 脏 数据 。 


一 Ce 个 要 使 用 LOAD DATA FROM MASTER 或 者 LOAD TABLE FROM MASTER! 这 


命令 过 时 、 缓 慢 ， 并 且 非 常 危 险 ， 并 且 只 适用 于 MyISAM 存 储 引擎 。 


不 管 选择 哪 种 技术 ， 都 要 能 熟练 运用 ， 要 记录 详细 的 文档 或 编写 


脚本 。 因 为 可 能 不 止 一 次 需要 做 这 样 的 事情 。 甚 至 当 错 误 发 生 时 ， 也 
需要 能 够 处 理 。 


10.25 ”推荐 的 复制 配置 


有 许多 参数 来 控制 复制 ， 其 中 一 些 会 对 数据 安全 和 性 能 产生 影 
咱 。 稍 后 我 们 会 解释 何 种 规则 在 何 时 会 失效 。 本 小 节 推 荐 的 一 种 “ 安 
全 ”的 配置 ， 可 以 最 小 化 问题 发 生 的 概率 。 


在 主 库 上 二 进 制 日 志 最 重要 的 选项 是 sync_binlog: 


sync_binlog=1 


如 果 开 启 该 选项 ，MySQL 每 次 在 提交 事务 前 会 将 二 进 制 日 志 同 步 
到 磁盘 上 ， 保 证 在 服务 器 朋 溃 时 不 会 丢失 事件 。 如 果 茶 止 该 选项 ， 服 
务 器 会 少 做 一 些 工 作 ， 但 二 进 制 日 志文 件 可 能 在 服务 器 朋 溃 时 损坏 或 
丢失 信息 。 在 一 个 不 需要 作为 主 库 的 备 库 上 ， 该 选项 带 来 了 不 必要 的 
开销 。 它 只 适用 于 二 进 制 日 志 ， 而 非 中 继 日 志 。 


如 果 无 法 容忍 服务 器 朋 溃 导致 形 损坏 ， 推 荐 使 用 mnoDB。 在 表 损 
坏 无 天 紧要 时 ， MyISAM 是 可 以 接受 的 ， 但 在 一 次 备 库 服 务 器 朋 冲 重 
启 后 ，MyISAM 表 可 能 已 经 处 于 不 一 致 状态 。 一 种 可 能 是 语句 没有 完 
全 应 用 到 一 个 或 多 个 表 上 ， 那 么 即使 修复 了 表 ， 数 据 也 可 能 是 不 一 致 
的 。 


如 果 使 用 mnoDB， 我 们 强烈 推荐 设置 如 下 选项 : 


innodb_flush_logs_at_trx_commit=1 # Flush every log write 


innodb_support_xa=1 # MySQL 5.0 and newer 


only 
innodb_safe_binlog # MySQL 4.1 only, roughly 
equivalent to 


# innodb_support_xa 


这 些 是 MySQL 5.0 及 最 新 版 本 中 的 默认 配置 ， 我 们 推荐 明确 指定 
一 进 制 日 志 的 名 字 ， 以 保证 二 进 制 日 志 名 在 所 有 服务 器 上 是 一 致 的 ， 
避免 因为 服务 器 名 的 变化 导致 的 日 志文 件 名 变化 。 你 可 能 认为 以 服务 
器 名 来 命名 二 进 制 日 志 无 关 紧 要 ， 但 经 验 表 明 ， oo 
件 、 克 隆 新 的 备 库 、 转 储备 份 或 者 其 他 一 些 你 想象 不 到 的 场景 下 
能 会 导致 很 多 问题 。 为 了 避免 这 些 问题 ， 需要 给 log_bin 选 项 指定 一 = 个 
参数 。 可 以 随意 地 给 一 个 绝对 路 径 ， 但 必须 明确 地 指定 基本 的 命 
(正如 本 章 之 前 讨论 的 ) 。 


log_bin=/var/lib/mysql/mysql-bin # Good; specifies a path 
and base namelog_bin=/var/lib/mysgql/mysql-bin # Good; 
specifies a path and base name#log_bin 
# Bad; base name will be server's hostname 

#log_bin # Bad; base name will be 


server's hostname 


在 备 库 上 ， 我 们 同样 推荐 开启 如 下 配置 选项 ， 为 中 继 日 志 指 定 绝 
对 路 径 : 


relay_log=/path/to/logs/relay-bin 


skip_slave_start 


read_only 


通过 设置 relay_log 可 以 避免 中 继 日 志文 件 基于 机 器 名 来 命名 ， 防 
止 之 前 提 到 的 可 能 在 主 库 发 生 的 问题 。 指 定 绝对 路 径 可 以 避免 多 个 
MySQL 版 本 中 存在 的 Bug， 这 些 Bug 可 能 会 导致 中 继 日 志 在 一 个 意料 
外 的 位 置 创 建 。skip_slave_start 选 项 能 够 阻止 备 库 在 崩溃 后 自动 启动 复 
制 。 这 可 以 给 你 一 些 机 会 来 修复 可 能 发 生 的 问题 。 如 果 备 库 在 骨 溃 后 
和 目 动 局 动 并 且 处 于 不 一 致 的 状态 ， 就 可 能 会 导致 更 多 的 损坏 ， 最 后 将 
不 得 不 把 所 有 数据 丢弃 ， 并 重新 开始 配置 备 库 。 


read_only 选 项 可 以 阻止 大 部 分 用 户 更 改 非 临 时 表 ， 除 了 复制 SQL 
线程 和 其 他 拥有 超级 权限 的 用 户 之 外 ， 这 也 是 要 尽量 避免 给 正常 账号 
授予 超级 权限 的 原因 之 一 。 


即使 开启 了 所 有 我 们 建议 的 选项 ， 备 库 仍 然 可 能 在 骨 溃 后 被 中 
断 ， 因 为 master.info 和 中 继 日 志文 件 都 不 是 月 演 安 全 的 。 默 认 情 况 下 其 
至 不 会 刷新 到 磁盘 ， 直 到 MySQL 5.5 版 本 才 有 选项 来 控制 这 种 行为 。 
如 果 正 在 使 用 MySQL 5.5 并 且 不 介意 额外 的 fsync() 导 致 的 性 能 开销 ， 
最 好 设置 以 下 选项 : 


sync_master_info = 1 
sync_relay_log = 1 
sync_relay_log_info = 1 


如 果 备 库 与 主 库 的 延迟 很 大 ， 备 库 的 IO 线程 可 能 会 写 很 多 中 继 日 
志文 件 ，SQL 线 程 在 重 放 完 一 个 中 继 日 志 中 的 事件 后 会 尽快 将 其 删除 


(通过 relay log _purge 选 项 来 控制 ) 。 但 如 果 延 迟 非常 严重 ，IO 线 程 
可 能 会 把 整个 磁盘 撑 满 。 解 决 办 法 是 配置 relay_ log space limite =. 
如 果 所 有 中 继 日 志 的 大 小 之 和 超过 这 个 值 ，VO 线 程 会 停止 ， 等 待 SQL 
线程 释放 磁盘 空间 。 


尽管 听 起 来 很 美好 ， 但 有 一 个 隐藏 的 问题 。 如 果 备 库 没 有 从 主 库 
上 获取 所 有 的 中 继 日 志 ， 这 些 日 志 可 能 在 主 库 月 演 时 丢失 。 早 先 这 个 
选项 存在 一 些 Bug， 使 用 率 也 不 高 ， 所 以 用 到 这 个 选项 遇 到 Bug 的 风险 
会 更 高 。 除 非 磁 盘 空间 真 的 非常 紧张 ， 否 则 最 好 让 中 继 日 志 使 用 其 需 
要 的 磁盘 空间 ， 这 也 是 为 什么 我 们 没有 将 relay_log_space_limit 列 入 推 
荐 的 配置 选项 的 原因 。 


10.3 ”复制 的 原理 


我 们 已 经 介绍 了 复制 的 一 些 基 本 概念 ， 接 下 来 要 更 深入 地 了 解 复 
制 。 让 我 们 看 看 复制 究竟 是 如 何 工作 的 ， 有 哪些 优点 和 弱点 ， 最 后 介 
绍 一 些 更 高 级 的 复制 配置 选项 。 


10.3.1 ”基于 语句 的 复制 


在 MySQL 5.0 及 之 前 的 版 本 中 只 支持 基于 语句 的 复制 (也 称 为 逻 
辑 复 制 ) ， 这 在 数据 库 领 域 是 很 少见 的 。 基 于 语句 的 复制 模式 下 ， 主 
车 会 记录 那些 造成 数据 更 改 的 查询 ， 当 备 库 读 取 并 重 放 这 些 事件 时 ， 
实际 上 只 是 把 主 库 上 执行 过 的 SQL 青 执行 一 遍 。 这 种 方式 既 有 好 处 ， 
也 有 缺点 。 


最 明显 的 好 处 是 实现 相当 简单 。 理 论 上 讲 ， 简 单 地 记录 和 执行 这 
些 语 句 ， 能 够 让 主 备 保持 同步 。 另 一 个 好 处 是 二 进 制 日 志 里 的 事件 更 
加 紧凑 ， 所 以 相对 而 言 ， 基 于 语句 的 模式 不 会 使 用 太 多 带宽 。 一 条 更 
新 好 几 焰 数据 的 语句 在 二 进 制 日 志 里 可 能 只 占 几 十 个 字 节 。 另 外 
mysqlbinlog 工 具 (本 章 多 处 会 提 到 ) 是 使 用 基于 语句 的 日 志 的 最 佳 工 
具 。 


但 事实 上 基于 语句 的 方式 可 能 并 不 如 其 看 起 来 那么 便利 。 因 为 主 
库 上 的 数据 更 新 除了 执行 的 语句 外 ， 可 能 还 依赖 于 其 他 因素 。 例 如 ， 
同一 条 SQL 在 主 库 和 备 库 上 执行 的 时 间 可 能 稍微 或 很 不 相同 ， 因 此 在 
传输 的 二 进 制 日 志 中 ， 除 了 查询 语句 ， 还 包括 了 一 些 元 数据 信息 ， 如 
当前 的 时 间 戳 。 即 便 如 此 ， 还 存在 着 一 些 无 法 被 正确 复制 的 SQL。 例 
如 ， 使 用 CURRENT_USER0O 国 数 的 语句 。 存 储 过 程 和 触发 器 在 使 用 基 
于 语句 的 复制 模式 时 也 可 能 存在 问题 。 


另外 一 个 问题 是 更 新 必须 是 串 行 的 。 这 需要 更 多 的 锁 一 一 有 了 时候 
要 特别 关注 这 一 点 。 另 外 不 是 所 有 的 存储 引擎 都 支持 这 种 复制 模式 。 
尽管 这 些 存储 引擎 是 包括 在 MySQL 5.5 及 之 前 版 本 中 发 行 的 。 


可 以 在 MySQL 手 册 与 复制 相关 的 章节 中 找到 基于 语句 的 复制 存在 
的 限制 的 完整 列表 。 


10.3.2 ”基于 行 的 复制 


MySQL 5.1 开 始 支 持 基于 行 的 复制 ， 这 种 方式 会 将 实际 数据 记录 
在 二 进 制 日 志 中 ， 跟 其 他 数据 库 的 实现 比较 相像 。 它 有 其 自身 的 一 些 


优点 和 缺点 。 最 大 的 好 处 是 可 以 正确 地 复制 每 一 行 。 一 些 语句 可 以 被 
更 加 有 效 地 复制 。 


区 1. 基于 行 的 复制 没有 向 后 兼容 性 ， 和 MySQL 5.1 一 起 发 布 的 mysqlbinlog 工 具 可 以 读 取 


基于 行 的 复制 的 事件 格式 ( 它 对 人 是 不 可 读 的 ， 但 MySQL 可 以 解释 ) ， 但 是 早期 版 本 的 


mysqlbinlog 无 法 识别 这 类 事件 ， 在 遇 到 错误 时 会 退出 。 


由 于 无 须 重 放 更 新 主 库 数 据 的 查询 ， 使 用 基于 行 的 复制 模式 能 够 
更 高 效 地 复制 数据 。 重 放 一 些 查 询 的 代价 可 能 会 很 高 。 例 如 ， 下 面 有 
一 个 查询 将 数据 从 一 个 大 表 中 汇总 到 小 表 : 


mysql> INSERT INTO summary_table(col1, col2, sum col3) 
-> SELECT coli, col2, sum(col3) 
-> FROM enormous_table 


-> GROUP BY coli, col2; 


想象 一 下 ， 如 果 表 enormous_table 的 列 col1 和 col2 有 三 种 组 合 ， 这 
个 查询 可 能 在 产 表 上 扫描 多 次 ， 但 最 终 只 在 目标 表 上 产生 三 行 数据 。 
但 使 用 基于 行 的 复制 方式 ， 在 备 库 上 开销 会 小 很 多 。 这 种 情况 下 ， 基 
于 行 的 复制 模式 更 加 高 效 。 


但 在 另 一 方面 ， 下 面 这 条 语句 使 用 基于 语句 的 复制 方式 代价 会 小 
很 多 : 


mysql> UPDATE enormous_table SET coli = 0; 


由 于 这 条 语句 做 了 全 表 更 新 ， 使 用 基于 行 的 复制 开销 会 很 大 ， 因 
为 每 一 行 的 数据 都 会 被 记录 到 二 进 制 日 志 中 ， 这 使 得 二 进 制 日 志 事件 
非 党 庞大。 并 且 会 给 主 库 上 记录 日 志和 复制 增加 额外 的 负载 ， 更 慢 的 
志 记 录 则 会 降低 并 发 度 。 


由 于 没有 哪 种 模式 对 所 有 情况 都 是 完美 的 ，MySQL 能 够 在 这 两 种 
复制 模式 间 动 态 切 换 。 默 认 情 况 下 使 用 的 是 基于 语句 的 复制 方式 ， 但 
如 果 发 现 语句 无 法 被 正确 地 复制 ， 就 切换 到 基于 行 的 复制 模式 。 还 可 
以 根据 需要 来 设置 会 话 级 别 的 变量 binlog_format， 控 制 二 进 制 日 志 
Tho 


对 于 基于 行 的 复制 模式 ， 很 难 进行 时 间 点 恢复 ， 但 这 并 非 不 可 
能 。 稍 后 讲 到 的 日 志 服 务 器 对 此 会 有 帮助 。 


10.3.3 ”基于 行 或 基于 语句 : 哪 种 更 优 


我 们 已 经 讨论 了 这 两 种 复制 模式 的 优点 和 缺点 ， 那 么 在 实际 应 用 
中 哪 种 方式 更 优 呢 ? 


理论 上 基于 行 的 复制 模式 整体 上 更 优 ， 并 且 在 实际 应 用 中 也 适用 
于 大 多 数 场景 。 但 这 种 方式 太 新 了 以 至 于 没有 将 一 些 特殊 的 功能 加 入 
到 其 中 来 满足 数据 库 管 理 员 的 操作 需求 。 因 此 一 些 人 直到 现在 还 没有 
开始 使 用 。 以 下 详细 地 阐述 两 种 方式 的 优点 和 缺点 ， 以 帮助 你 决定 哪 
种 方式 更 合适 。 


基于 语句 的 复制 模式 的 优点 


当主 备 的 模式 不 同时 ， 逻 辑 复制 能 够 在 多 种 情况 下 工作 。 例 
如 ， 在 主 备 上 的 表 的 定义 不 同 但 数据 类 型 相 兼 容 、 列 的 顺序 不 同 
等 情况 。 这 样 就 很 容易 先 在 备 库 上 修改 schema， 然 后 将 其 提升 为 
主 库 ， 减 少 停机 时 间 。 基 于 语句 的 复制 方式 一 般 允 许 更 灵活 的 操 
作 。 


基于 语句 的 方式 执行 复制 的 过 程 基本 上 就 是 执行 SQL 语句 。 
这 意味 着 所 有 在 服务 器 上 发 生 的 变更 都 以 一 种 容易 理解 的 方式 运 
行 。 这 样 当 出 现 问题 时 可 以 很 好 地 去 定位 。 


基于 语句 的 复制 模式 的 缺点 


很 多 情况 下 通过 基于 语句 的 模式 无 法 正确 复制 ， 几 乎 每 一 个 
安装 的 备 库 都 会 至 少 碰 到 一 次 。 事 实 上 对 于 存储 过 程 ， 触 发 器 以 
及 其 他 的 一 些 语 句 的 复制 在 5.0 和 5.1 的 一 系列 版 本 中 存在 大 量 的 
Bug。 这 些 语句 的 复制 的 方式 已 经 被 修改 了 很 多 次 ， 以 使 其 更 好 
地 工作 。 简 单 地 说 : 如 果 正 在 使 用 触 友 器 或 者 人 存储 过 程 ， 融 不 要 
使 用 基于 语句 的 复制 模式 ， 除 非 能 够 清楚 地 确定 不 会 磁 到 复制 问 


题 。 
基于 行 的 复制 模式 的 优点 


几乎 没有 基于 行 的 复制 模式 无 法 处 理 的 场景 。 对 于 所 有 的 
SQL 构造 、 触 发 器 、 存 储 过 程 等 都 能 正确 执行 。 只 是 当 你 试图 做 
一 些 诸如 在 备 库 修改 表 的 schema 这 样 的 事情 时 才 可 能 导致 复制 失 
败 。 


这 种 方式 同样 可 能 减少 锁 的 使 用 ， 因 为 它 并 不 要 求 这 种 强 串 
行 化 是 可 重复 的 。 


基于 行 的 复制 模式 会 记录 数据 变更 ， 因 此 在 二 进 制 日 志 中 记 
录 的 都 是 实际 上 在 主 库 上 发 生 了 变化 的 数据 。 你 不 需要 查看 一 条 
语句 去 猜测 它 到 底 修 改 了 哪些 数据 。 在 某 种 程度 上 ， 该 模式 能 够 
更 加 清楚 地 知道 服务 器 上 发 生 了 哪些 更 改 ， 并 且 有 一 个 更 好 的 数 
据 变更 记录 。 另 外 在 一 些 情况 下 基于 行 的 二 进 制 日 志 还 会 记录 发 
生 改 变 之 前 的 数据 ， 因 此 这 可 能 有 利于 某 些 数据 恢复 。 


在 很 多 情况 下 ， 由 于 无 须 像 基于 语句 的 复制 那样 需要 为 查询 
建立 执行 计划 并 执行 查询 ， 因 此 基于 行 的 复制 占用 更 少 的 CPU。 


最 后 ， 在 某 些 情况 下 ， 基 于 行 的 复制 能 够 帮助 更 快 地 找到 并 
解决 数据 不 一 致 的 情况 。 举 个 例子 ， 如 果 是 使 用 基于 语句 的 复制 
模式 ， 在 备 库 更 新 一 个 不 存在 的 记录 时 不 会 失败 ， 但 在 基于 行 的 
复制 模式 下 则 会 报错 并 停止 复制 。 


基于 行 的 复制 模式 的 缺点 


由 于 语句 并 没有 在 日 志 里 记录 ， 因 此 无 法 判断 执行 了 哪些 
SQL， 除 了 需要 知道 行 的 变化 外 ， 这 在 很 多 情况 下 也 很 重要 (这 
可 能 在 未 来 的 MySQL 版 本 中 被 修复 ) 。 


使 用 一 种 完全 不 同 的 方式 在 备 库 进行 数据 变更 一 一 而 不 是 执 
行 SQL。 事 实 上 ， 执 行 基于 行 的 变化 的 过 程 就 像 一 个 黑 盒 子 ， 你 
无 法 知道 服务 器 正在 做 什么 。 并 且 没 有 很 好 的 文档 和 解释 。 因 此 
当 出 现 问 题 时 ， 可 能 很 难 找 到 问题 所 在 。 例 如 ， 若 备 库 使 用 一 个 
效率 低下 的 方式 去 寻找 行 记录 并 更 新 ， 你 无 法 观察 到 这 一 点 。 


如 果 有 多 层 的 复制 服务 器 ， 并 且 所 有 的 都 被 配置 成 基于 行 的 
复制 模式 ， 当 会 话 级 别 的 变量 @@binlog format 被 设置 成 
STAIEMENT 时 ， 所 执行 的 语句 在 源 服务 器 上 被 记录 为 基于 语句 
的 模式 ， 但 第 一 层 的 备 库 可 能 将 其 记录 成 行 模式 ， 并 传递 给 其 他 
层 的 备 库 。 也 就 是 说 你 期 望 的 基于 语句 的 日 志 在 复制 拓扑 中 将 会 
被 切换 到 基于 行 的 模式 。 基 于 行 的 日 志 无 法 处 理 诸如 在 备 库 修 改 
表 的 schema 这 样 的 情况 ， 而 基于 语句 的 日 志 可 以 。 


在 某 些 情 况 下 ， 例 如 找 不 到 要 修改 的 行 时 ， 基 于 行 的 复制 可 
能 会 导致 复制 停止 ， 而 基于 语句 的 复制 则 不 会 。 这 也 可 以 认为 是 
基于 行 的 复制 的 一 个 优点 。 访 行为 可 以 通过 slave_exec_mode 来 进 
行 配置 。 


这 些 缺 点 正在 被 慢 慢 解决 ， 但 直到 写作 本 书 时 ， 它 们 在 大 多 
数 生产 环境 中 依然 存在 。 


10.3.4 ”复制 文件 


让 我 们 来 看 看 复制 会 使 用 到 的 一 些 文 件 。 前 面 已 经 介绍 了 二 进 制 
日 志文 件 和 中 继 日 志文 件 ， 其 实 还 有 其 他 的 文件 会 被 用 到 。 不 同 版 本 
的 MySQL 默 认 情 况 下 可 能 将 这 些 文 件 放 到 不 同 的 目录 里 ， 大 多 取决 具 
体 的 配置 选项 。 可 能 在 data 目 录 或 者 包含 服务 器 .pid 文 件 的 目录 下 (对 
于 类 UNIX 系 统 可 能 是 /Var/run/mysgld) 。 它 们 的 详细 介绍 如 下 。 


mysql-bin.index 


当 在 服务 器 上 开启 二 进 制 日 志 时 ， 同 时 会 生成 一 个 和 二 进 制 
日 志 同 名 的 但 以 .index 作 为 后 缀 的 文件 ， 该 文件 用 于 记录 磁盘 上 的 
二 进 制 日 志文 件 。 这 里 的 “index” 并 不 是 措 表 的 索引 ， 而 是 说 这 个 
文件 的 每 一 行 包含 了 二 进 制 文件 的 文件 名 。 


你 可 能 认为 这 个 文件 是 多 余 的 ， 可 以 被 删除 (毕竟 MySQL 可 
以 在 磁盘 上 找到 它 需 要 的 文件 。 事 实 上 并 非 如 此 ，MySQL 依 赖 
于 这 个 文件 ， 除 非 在 这 个 文件 里 有 记录 ， 否 则 MySQL 识 别 不 了 二 
进 制 日 志文 件 。 


mysql-relay-bin-index 


这 个 文件 是 中 继 日 志 的 索引 文件 ， 和 mysql-bin.index 的 作用 类 
似 。 


master.info 


这 个 文件 用 于 保存 备 库 连 接 到 主 库 所 需要 的 信息 ， 格 式 为 纯 
文本 〈 每 行 一 个 值 ) ， 不 同 的 MySQL 版 本 ， 其 记录 的 信息 也 可 能 
不 同 。 此 文件 不 能 删除 ， 否 则 备 库 在 重启 后 无 法 连接 到 主 库 。 这 
个 文件 以 文本 的 方式 记录 了 复制 用 户 的 密码 ， 所 以 要 注意 此 文件 
的 权限 控制 。 


relay-log.info 


这 个 文件 包含 了 当前 备 库 复制 的 二 进 制 日 志和 中 继 日 志 坐 标 
(例如 ， 备 库 复 制 在 主 库 上 的 位 置 ) ， 同 样 也 不 要 删除 这 个 文 
件 ， 否 则 在 备 库 重启 后 将 无 法 获知 从 哪个 位 置 开始 复制 ， 可 能 会 
导致 重 放 已 经 执行 过 的 语句 。 


使 用 这 些 文件 来 记录 MySQL 复 制 和 日 志 状 态 是 一 种 非常 粗糙 的 方 
式 。 更 不 幸 的 是 ， 它 们 不 是 同步 写 的 。 如 果 服 务 器 断 电 并 且 文 件数 据 
没有 被 刷新 到 磁盘 ， 在 重启 服务 器 后 ， 文 件 中 记录 的 数据 可 能 是 错误 
的 。 正 如 之 前 提 到 的 ， 这 些 问题 在 MySQL 5.5 里 做 了 改进 。 


以 .index 作 为 后 缀 的 文件 也 与 设置 expire_logs_days 存 在 交互 ， 该 参 
数 定 义 了 MySQL 清 理 过 期 日 志 的 方式 ， 如 果 文 件 mysqL-bin.index 在 磁 
盘 上 不 存在 ， 在 某 些 MySQL 版 本 自动 清理 就 会 不 起 作用 ， 甚 至 执行 
PURGE MASTER LOGS 语 句 也 没有 用 。 这 个 问题 的 解决 方法 通常 是 使 
用 MySQL 服 务 器 管理 二 进 制 日 志 ， 这 样 就 不 会 产生 误解 (这 意味 着 不 
应 该 使 用 rm 来 自己 清理 日 志 


最 好 能 显 式 地 执行 一 些 日 志清 理 策略 ， 比 如 设置 expire_logs_days 
参数 或 者 其 他 方式 ， 否 则 MySQL 的 二 进 制 日 志 可 能 会 将 磁盘 撑 满 。 当 
做 这 些 事情 时 ， 还 需要 考虑 到 备份 策略 。 


10.35 ”发送 复制 事件 到 其 他 备 库 


log_slave_updates 选 项 可 以 让 备 库 变 成 其 他 服务 器 的 主 库 。 在 设置 
该 选项 后 ，MySQL 会 将 其 执行 过 的 事件 记录 到 它 自己 的 二 进 制 日 志 
中 。 这 样 它 的 备 库 就 可 以 从 其 日 志 中 检索 并 执行 事件 。 图 10-2 前 述 了 
这 一 过 程 。 


主 度 备 库 _ 


: vO BER 


“wh 


图 10-2: 将 复制 事件 传递 到 更 多 的 备 库 


在 这 种 场景 下 ， 主 库 将 数据 更 新 事件 写 入 二 进 制 日 志 ， 第 一 个 备 
库 提 取 并 执行 这 个 事件 。 这 时 候 一 个 事件 的 生命 周期 应 该 已 经 结束 
了 ， 但 由 于 设置 了 log_slave_updates， 备 库 会 将 这 个 事件 写 到 它 自己 的 
二 进 制 日 志 中 。 这 样 第 二 个 备 库 就 可 以 将 事件 提取 到 它 的 中 继 日 志 
并 执行 。 这 意味 着 作为 源 服务 器 的 主 库 可 以 将 其 数据 变化 传递 给 没 
与 其 直接 相连 的 备 库 上 。 默认 情况 下 这 个 选项 是 被 打开 的 ， 这 样 在 连 
接 到 备 库 时 就 不 需要 重启 服务 器 。 


当 第 一 个 备 库 将 从 主 库 获得 的 事件 写 入 到 其 二 进 制 日 志 中 时 ， 这 
个 事件 在 备 库 二 进 制 日 志 中 的 位 置 与 其 在 主 库 二 Est 
乎 肯定 是 不 相同 的 ， 可 能 在 不 同 的 日 志文 件 或 文件 内 不 同 的 位 置 。 这 
意味 着 你 不 能 假定 所 有 拥有 同一 
坐标 。 稍 后 我 们 会 提 到 ， 这 种 情况 会 使 某 些 任务 更 加 复杂 ， 例 如 ， 修 
改 一 个 备 库 的 主 库 或 将 备 库 提 升 为 主 库 。 


除非 你 已 经 注意 Be reece eee ee 否 
则 按照 这 种 方式 配置 备 库 会 导致 一 些 奇怪 的 错误 ， 甚 至 还 会 导致 复制 
停止 。 _ Agi MANE: 为 什么 要 指定 服务 器 ID ， 难 道 MySQL 在 


不 知道 复制 命令 来 源 的 情况 下 不 能 执行 吗 ? 为 什么 MySQL 要 在 意 服务 
器 ID 是 全 局 唯一 的 。 问 题 的 答案 在 于 MySQL 在 复制 过 程 中 如 何 防止 无 
限 循环 。 当 复制 SQL 绪 程 读 中 继 日 志 时 ， 会 丢弃 事件 中 记录 的 服务 器 
ID 和 该 服务 器 本 身 ID 相同 的 事件 ， 从 而 打破 了 复制 过 程 中 的 无 限 循 
环 。 在 某 些 复制 拓扑 结构 下 打破 无 限 循环 非常 重要 ， 例 如 主 - 主 复制 结 
HO, 


feed, 如 果 在 设置 复制 的 时 候 磁 到 问题 ， 服 务 器 ID 应 该 是 需要 检查 的 因素 之 一 。 当 然 只 


检查 @@server_ id 是 不 够 的 ， 它 有 一 个 默认 值 ， 除 非 在 mycnf 文 件 或 通过 SET 命令 明确 指定 它 
的 值 ， 复 制 才 会 工作 。 如 果 使 用 SET 命令 ， 确 保 同 时 也 更 新 了 配置 文件 ， 否 则 SET 命令 的 设 定 
可 能 在 服务 器 重启 后 丢失 。 


10.3.6 ”复制 过 滤器 


复制 过 滤 选 项 允许 你 仅 复 制服 务 器 上 一 部 分 数据 ， 不 过 这 可 能 没 
有 想象 中 那么 好 用 。 有 两 种 复制 过 滤 方 式 : 在 主 库 上 过 滤 记 录 到 二 进 
wae seas 寺 滤 记录 到 中 继 日 志 的 事件 。 图 10-3 
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图 10-3: 复制 过 滤 选 项 


使 用 选项 binlog_do_db 和 Pbinlog_ignore_db 来 控制 过 滤 ， 稍 后 我 们 
会 解释 为 什么 通常 不 需要 开启 它们 ， 除 非 你 乐于 向 老板 解释 为 什么 数 
据 会 永久 丢失 并 且 无 法 恢复 。 


在 备 库 上 ， 可 以 通过 设置 replicate_* 选 项 ， 在 从 中 继 日 志 中 读 取 事 
件 时 进行 过 滤 。 你 可 以 复制 或 忽略 一 个 或 多 个 数据 库 ， 把 一 个 数据 库 
重 写 到 另外 一 个 数据 库 ， 或 使 用 类 似 LIKE 的 模式 复制 或 忽略 数据 库 
表 。 


要 理解 这 些 选 项 ， 最 重要 是 弄 清 楚 *_do_db 和 * ignore_db 在 主 库 
和 备 库 上 的 意义 ， 它 们 可 能 不 会 按照 你 所 设想 的 那样 工作 。 你 可 能 会 
认为 它 会 根据 目标 数据 库 名 过 滤 ， 但 实际 上 过 滤 的 是 当前 的 默认 数据 
库 4。 也 就 是 说 ， 如 果 在 主 库 上 执行 如 下 语句 : 


mysql> USE test; 


mysql> DELETE FROM sakila. film; 


*_do_db 和 *_ignore_db 都 会 在 数据 库 test 上 过 滤 DELETE 语 句 ， 而 
不 是 在 sakila 上 。 这 通常 不 是 想 要 的 结果 ， 可 能 会 导致 执行 或 忽略 错误 
的 语句 。*_do_db 和 * ignore_db 有 一 些 作 用 ,但 非常 有 限 。 必 须要 很 
小 心地 去 使 用 这 些 参 数 ， 否 则 很 容易 造成 主 备 不 同步 或 复制 出 错 。 


emp Pinlog_do_db#binlog_ignore_db41X 可 能 会 破坏 复制 ， 还 可 能 会 导致 从 某 个 时 
参 


间 点 的 备份 进行 数据 恢复 时 失败 。 在 大 多 数 情况 下 都 不 应 该 使 用 这 些 参 数 。 本 章 稍 后 部 分 我 
们 展示 了 一 些 使 用 blackhole 表 进行 复制 过 滤 的 方法 。 


总 地 来 说 ， 复 制 过 滤 随 时 可 能 会 发 生 问题 。 举 个 例子 ， 假 如 要 阻 
止 赋 权 限 操作 传递 给 备 库 ， 这 种 需求 是 很 普遍 的 。 (提醒 一 下 ， 这 样 
做 可 能 是 错误 的 ， 有 别 的 更 好 的 方式 来 达成 真正 的 目的 ) 。 过 滤 系统 
表 的 复制 当然 能 够 阻止 GRANT 语 句 的 复制 ， 但 同样 也 会 阻止 事件 和 定 
时 任务 的 复制 。 正 是 这 些 不 可 预知 的 后 果 ， 使 用 复制 过 滤 要 非常 慎 
重 。 更 好 的 办 法 是 阻止 一 些 特殊 的 语句 被 复制 ， 通 常 是 设 
SQL_ LOG_BIN=0， 虽 然 这 种 方法 也 有 它 的 缺点 。 总 地 来 说 ， 除 非 万 
不 得 已 ， 不 要 使 用 复制 过 滤 ， 因 为 它 很 容易 中 断 复制 并 导致 问题 ， 在 
需要 灾难 恢复 时 也 会 带 来 极 大 的 不 方便 。 


过 滤 选 项 在 MYSQL 文档 里 介绍 得 很 详细 ， 因 此 本 书 不 再 重复 更 多 
的 细节 。 


10.4 ”复制 拓扑 


可 以 在 任意 个 主 库 和 备 库 之 间 建 立 复制 ， 只 有 一 个 限制 : 每 一 个 
备 库 只 能 有 一 个 主 库 。 有 很 多 复杂 的 拓扑 结构 ， 但 即使 是 最 简单 的 也 
可 能 会 非常 灵活 。 一 种 拓扑 可 以 有 多 种 用 途 。 关 于 使 用 复制 的 不 同方 
式 可 以 很 轻易 地 写 一 本 书 。 


我 们 已 经 讨论 了 如 何 为 主 库 设置 一 个 备 库 ， 本 节 我 们 讨论 其 他 比 
较 普 遍 的 拓扑 结构 以 及 它们 的 优 缺 点 。 记 住 下 面 的 基本 原则 : 


一 个 MySQL 备 库 实 例 只 能 有 一 个 主 库 。 

每 个 备 库 必须 有 一 个 唯一 的 服务 器 ID。 

一 个 主 库 可 以 有 多 个 备 库 (或 者 相应 的 ， 一 个 备 库 可 以 有 多 个 兄 
BEE) o 


。 如果 打 开 了 log_slave_updates 选 项 ， 一 个 备 库 可 以 把 其 主 库 上 的 数 
据 变化 传播 到 其 他 备 库 。 


10.4.1 一 主 库 多 备 库 


除了 我 们 已 经 提 过 的 两 台 服 务 器 的 主 备 结构 外 ， 这 是 最 简单 的 拓 
扑 结构 。 事 实 上 一 主 多 备 的 结构 和 基本 配置 差不多 简单 ， 因 为 备 库 之 
间 根 本 没有 交互 人 9， 它们 仅仅 是 连接 到 同一 个 主 库 上 。 图 10-4 显 示 了 
这 种 结构 。 


在 有 少量 写 和 大 量 读 时 ， 这 种 配置 是 非常 有 用 的 。 可 以 把 读 分 欣 
到 多 个 备 库 上 ， 直 到 备 库 给 主 库 造成 了 太 大 的 负担 ， 或 者 主 备 之 间 的 
带宽 成 为 瓶颈 为 止 。 你 可 以 按照 之 前 介绍 的 方法 一 次 性 设置 多 个 备 
库 ， 或 者 根据 需要 增加 备 库 。 


备 库 备 库 备 库 


图 10-4: 一 主 多 备 结构 


尽管 这 是 非常 简单 的 拓扑 结构 ， 但 它 非 常 灵 活 ， 能 满足 多 种 需 
求 。 下 面 是 它 的 一 些 用 途 : 


。 为 不 同 的 角色 使 用 不 同 的 备 库 (例如 添加 不 同 的 索引 或 使 用 不 同 
的 存储 引擎 ) 。 


。 把 一 台 备 库 当 作 待 用 的 主 库 ， 除 了 复制 没有 其 他 数据 传输 。 

。 将 一 台 备 库 放 到 远程 数据 中 心 ， 用 作 灾 难 恢复 。 

。 延迟 一 个 或 多 个 备 库 ， 以 备 灾 难 恢 复 。 

。 使 用 其 中 一 个 备 库 ， 作 为 备份 、 培 训 、 开 发 或 者 测试 使 用 服务 
器 。 


这 种 结构 流行 的 原因 是 它 避 免 了 很 多 其 他 拓扑 结构 的 复杂 性 。 例 
如 : 可 以 方便 地 比较 不 同 备 库 重 放 的 事件 在 主 库 二 进 制 日 志 中 的 位 
置 。 换 句 话 说 ， 如 果 在 同一 个 逻辑 点 停止 所 有 备 库 的 复制 ， 它 们 正在 
读 取 的 是 主 库 上 同一 个 日 志文 件 的 相同 物理 位 置 。 这 是 个 很 好 的 特 
性 ， 可 以 减轻 管理 员 许多 工作 ， 例 如 把 备 库 提升 为 主 库 。 


这 种 特性 只 存在 于 兄弟 备 库 之 间 。 在 没有 直接 的 主 备 或 者 兄弟 关 
系 的 服务 器 上 去 比较 日 志文 件 的 位 置 要 复杂 很 多 。 之 后 我 们 会 提 到 的 
许多 拓扑 结构 ， 例 如 树 形 复制 或 分 布 式 主 库 ， 很 难 计算 出 复制 的 事件 
的 逻辑 顺序 。 


10.4.2 ”主动 -主动 模式 下 的 主 - 主 复制 


主 - 主 复制 《也 叫 双 主 复 制 或 双向 复制 ) 包含 两 侣 服务器， 每 一 个 
都 被 配置 成 对 方 的 主 库 和 备 库 ， 换 句 话说 ， 它 们 是 一 对 主 库 。 图 10-5 
显示 了 该 结构 。 
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图 10-5: 主 - 主 复制 


主动 -主动 模式 下 主 - 主 复制 有 一 些 应 用 场景 ， 但 通常 用 于 特殊 的 
目的 。 一 个 可 能 的 应 用 场景 是 两 个 处 于 不 同 地 理 位 置 的 办 公 室 ， 并 且 
都 需要 一 份 可 写 的 数据 拷贝 。 


这 种 配置 最 大 的 问题 是 如 何 解决 冲突 ， 两 个 可 写 的 互 主 服务 器 导 
致 的 问题 非常 多 。 这 通常 发 生 在 两 台 服 务 器 同时 修改 一 行 记 录 ， 或 同 
时 在 两 台 服 务 器 上 向 一 个 包含 AUTO_INCREMENT 列 的 表 里 插入 数据 


(8), 


MySQL 不 支持 多 主 库 复制 


多 主 库 复制 (multisource replication) 特 指 一 个 备 库 有 多 个 主 
库 。 不 管 之 前 你 知道 什么 ， 但 MySQL (和 其 他 数据 库 产 品 不 一 样 ) 
现在 不 支持 如 图 10-6 所 示 的 结构 ， 本 章 稍 后 我 们 会 向 你 介绍 如 何 模 
仿 多 主 库 复制 。 


图 10-6: MySQL 不 支持 多 主 库 复制 


MySQL 5.0 增 加 了 一 些 特 性 ， 使 得 这 种 配置 稍微 安全 了 点 ， 就 是 
设置 auto_increment increment 和 auto_increment offset。 通 过 这 两 个 选 


项 可 以 让 MySQL 自 动 为 INSERT 语 句 选 择 不 互相 冲突 的 值 。 然 而 允许 


向 两 台 主 库 上 写 入 仍然 很 危险 。 在 两 台 机 器 上 根据 不 同 的 顺序 更 新 ， 
可 能 会 导致 数据 不 同步 。 例 如 ， 一 个 只 有 一 列 的 表 ， 只 有 一 行 值 为 1 的 
记录 ， 假 设 同 时 执行 下 面 两 条 语句 : 


。 人 在 第 一 台 主 库 上 : 


mysql> UPDATE tbl SET col=col + 1; 


。 在 第 二 人 台 主 库 上 : 


mysql> UPDATE tbl SET col=col + 2; 


那么 结果 呢 ? 一 人 台 服 务 器 上 值 为 4， 另 一 人 台 的 值 为 ?3， 并 且 没有 报 
告 任何 复制 错误 。 


数据 不 同步 还 仅仅 是 开始 。 当 正常 的 复制 发 生 错误 停止 了 ， 但 应 
用 仍 在 同时 向 两 全 服务 器 写 入 数据 ， 这 时 候 会 友 生 什么 呢 ? 你 不 能 简 
单 地 把 数据 从 一 台 服 务 器 复制 到 另外 一 台 ， 因 为 这 两 台 机 器 上 需要 复 
制 的 数据 都 可 能 发 生 了 变化 。 解 决 这 个 问题 将 会 非常 困难 。 


如 果 足 够 仔细 地 配置 这 种 架构 ， 例 如 很 好 地 划分 数据 和 权限 ， 并 
且 你 很 清楚 自己 在 做 什么 ， 可 以 避免 一 些 问题 %)。 然 而 这 通常 很 难 做 
好 ， 并 且 有 更 好 的 办 法 来 实现 你 所 需要 的 。 


总 地 来 说 ， 人 允许 向 两 个 服务 器 上 写 入 所 带 来 的 麻烦 远 远 大 于 其 市 
来 的 好 处 ， 但 下 一 节 描 述 的 主动 -被 动 模式 则 会 非常 有 用 。 


10.4.3 ”主动 -被 动 模式 下 的 主 - 主 复制 


这 是 前 面 描 述 的 主 - 主 结构 的 变 体 ， 它 能 够 避免 我 们 之 前 讨论 的 问 
题 。 这 也 是 构建 容错 性 和 高 可 用 性 系统 的 非常 强大 的 方式 ， 主 要 区 别 
在 于 其 中 的 一 台 服 务 器 是 只 读 的 被 动 服务 器 ， 如 图 10-7 所 示 。 


加 一- 


主动 被 动 


图 10-7: 主动 -被 动 模式 下 的 主 - 主 复制 


这 种 方式 使 得 反复 切换 主动 和 被 动 服务 器 非常 方便 ， 因 为 服务 器 
的 配置 是 对 称 的 。 这 使 得 故障 转移 和 故障 恢复 很 容易 。 它 也 可 以 让 你 
在 不 关闭 服务 器 的 情况 下 执行 维护 、 优 化 表 、 升 级 操作 系统 (或 者 应 
用 程序 、 硬 件 等 ) 或 其 他 任务 。 


例如 ， 执 行 ALTER TABLE 操 作 可 能 会 锁 住 整个 表 ， 阻 塞 对 表 的 读 
和 写 ， 这 可 能 会 花费 很 长 时 间 并 导致 服务 中 断 。 然 而 在 主 - 主 配置 下 ， 
可 以 先 停止 主动 服务 器 上 的 备 库 复制 线程 《这 样 就 不 会 在 被 动 服务 器 
上 执行 任何 更 新 ) ， 然 后 在 被 动 服务 器 上 执行 ALTER 操 作 ， 交 换 角 
色 ， 最 后 在 先前 的 主动 服务 器 上 (0 启动 复制 线程 。 这 个 服务 器 将 会 读 
取 中 继 日 志 并 执行 相同 的 ALTER 语 句 。 这 可 能 花费 很 长 时 间 ， 但 不 要 
紧 ， 因 为 该 服务 器 没有 为 任何 活跃 查询 提供 服务 。 


主动 -被 动 模式 的 主 - 主 结构 能 够 帮助 回避 许多 MySQL 的 问题 和 限 
制 ， 此 外 还 有 一 些 工具 可 以 完成 这 种 类 型 的 操作 。 


让 我 们 看 看 如 何 配置 主 - 主 服务 器 对 ， 在 两 台 服 务 器 上 执行 如 下 设 
置 后 ， 会 使 其 拥有 对 称 的 设置 : 


1. 确保 两 合 服务 器 上 有 相同 的 效 气 。 

2. 局 用 二 进 制 日 志 ， 选 择 唯一 的 服务 器 ID， 并 创建 复制 账号 。 

3. 启用 备 库 更 新 的 日 志 记 录 ， 后 面 将 会 看 到 ， 这 是 故障 转移 和 故障 
恢复 的 关键 。 

4. 把 被 动 服务 器 配置 成 只 读 ， 防 止 可 能 与 主动 服务 器 上 的 更 新 产生 
冲突 ， 这 一 点 是 可 选 的 。 

5. 启动 每 个 服务 器 的 MySQL 实 例 。 

6. 将 每 个 主 库 设置 为 对 方 的 备 库 ， 使 用 新 创建 的 二 进 制 日 志 开 始 工 
作 。 


让 我 们 看 看 主动 服务 器 上 更 新 时 会 发 生 什么 事情 。 更 新 被 记录 到 
二 进 制 日 志 中 ， 通 过 复制 传递 给 被 动 服务 器 的 中 继 日 志 中 。 被 动 服务 
器 执行 查询 并 将 其 记录 到 自己 的 二 进 制 日 志 中 (因为 开启 了 
log_slave_updates 选 项 ) 。 由 于 事件 的 服务 器 ID 与 主动 服务 器 的 相同 ， 
因此 主动 服务 器 将 忽略 这 些 事 件 。 在 后 面 的 “修改 主 库 * 可 了 解 更 多 的 
角色 切换 相关 内 容 。 


设置 主动 -被 动 的 主 - 主 拓 扑 结 构 在 某 种 意义 上 类 似 于 创建 一 个 热 
备份 ， 但 是 可 以 使 用 这 个 “备份 ”来 提高 性 能 ， 例 如 ， TRAA 
作 、 备 份 、“ 离 线 ?维护 以 及 升级 等 。 真 正 的 热 备份 做 不 了 这 些 事情 。 
然而 ， 你 不 会 获得 比 单 台 服务 器 更 好 的 写 性 能 〈《 稍 后 会 提 到 ) o 


当 我 们 讨论 使 用 复制 的 场景 和 用 途 时 ， 还 会 提 到 这 种 复制 方式 。 
是 一 种 非常 常见 并 且 重 要 的 拓扑 结构 。 


10.4.4 ”拥有 备 库 的 主 - 主 结构 


另外 一 种 相关 的 配置 是 为 每 个 主 库 增加 一 个 备 库 ， 如 图 10-8 所 
示 。 


图 10-8: 拥有 备 库 的 主 - 主 结构 


这 种 配置 的 优点 是 增加 了 宛 余 ， 对 于 不 同 地 理 位 置 的 复制 拓扑 ， 
能 够 消除 站 点 单 点 失效 的 问题 。 你 也 可 以 像 平常 一 样 ， 将 读 查 询 分 配 
到 备 库 上 。 


如 果 在 本 地 为 了 故障 转移 使 用 主 - 主 结构 ， 这 种 配置 同样 有 用 。 当 
主 库 失 效 时 ， 用 备 库 来 代替 主 库 还 是 可 行 的 ， 虽 然 这 有 点 复杂 。 同 样 
也 可 以 把 备 库 指向 一 个 不 同 的 主 库 ， 但 需要 考虑 增加 的 复杂 度 。 


10.45 ”环形 复制 


如 图 10-9 所 示 ， 双 主 结构 实际 上 是 环形 结构 的 一 种 特例 由。 环形 
结构 可 以 有 三 个 或 更 多 的 主 库 。 每 个 服务 器 都 是 在 它 之 前 的 服务 器 的 
备 库 ， 是 在 它 之 后 的 服务 器 的 主 库 。 这 种 结构 也 称 为 环形 复制 


(circular replication) o 


环形 结构 没有 双 主 结构 的 一 些 优点 ， 例 如 对 称 配置 和 简单 的 故障 
转移 ， 并 且 完 全 依赖 于 环 上 的 每 一 个 可 用 节点 ， 这 大 大 增加 了 整个 系 
统 失效 的 几率 。 如 果 从 环 中 移 除 一 个 节点 ， 这 个 节点 发 起 的 事件 就 会 
陷入 无 限 循环 : 它们 将 永远 绕 着 服务 器 链 循环 。 因 为 唯一 可 以 根据 服 
务 器 ID 将 其 过 滤 的 服务 器 是 创建 这 个 事件 的 服务 器 。 总 地 来 说 ， 环 形 
结构 非 党 脆弱， 应 该 尽量 避免 。 
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图 10-9: 环形 复制 拓扑 


可 以 通过 为 每 个 节点 增加 备 库 的 方式 来 减少 环形 复制 的 风险 ， 如 
图 10-10 所 示 。 但 这 仅仅 防范 了 服务 器 失效 的 危险 ， 断 电 或 者 其 他 一 些 
影响 到 网 络 连 接 的 问题 都 可 能 破坏 整个 环 。 
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图 10-10: 拥有 备 库 的 环形 结构 


10.4.6” 主 库 、 分 发 主 库 以 及 备 库 


我 们 之 前 提 到 当 备 库 足 够 多 时 ， 会 对 主 库 造 成 很 大 的 负载 。 每 个 
备 库 会 在 主 库 上 创建 一 个 线程 ， 并 执行 binlog dump 命 令 。 该 命令 会 读 
取 二 进 制 日 志文 件 中 的 数据 并 将 其 发 送 给 备 库 。 每 个 备 库 都 会 重复 这 
样 的 工作 ， 它 们 不 会 共享 binlog dump 的 资源 。 


如 果 有 很 多 备 库 ， 并 且 有 大 的 事件 时 ， 例 如 一 次 很 大 的 LOAD 
DATA INEFILE 操 作 ， 主 库 上 的 负载 会 显著 上 升 ， 甚 至 可 能 由 于 备 库 同 
时 请 求 同 样 的 事件 而 耗 尽 内 存 并 朋 溃 。 另 一 方面 ， 如 果 备 库 请 求 的 数 
据 不 在 文件 系统 的 缓存 中 ， 可 能 会 导致 大 量 的 磁盘 检索 ， 这 同样 会 影 
响 主 库 的 性 能 并 增加 锁 的 竞争 。 


因此 ， 如 果 需 要 多 个 备 库 ， 一 个 好 办 法 是 从 主 库 移 除 负 载 并 使 用 
分 发 主 库 。 分 发 主 库 事实 上 也 是 一 个 备 库 ， 它 的 唯一 目的 就 是 提取 和 
提供 主 库 的 二 进 制 日 志 。 多 个 备 库 连 接 到 分 发 主 库 ， 这 使 原来 的 主 库 
摆脱 了 负担 。 为 了 避免 在 分 发 主 库 上 做 实际 的 查询 ， 可 以 将 它 的 表 修 
改 为 blackhole 人 存储 引擎 ， 如 图 10-11 所 示 。 
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图 10-11: 一 个 主 库 、 一 个 分 发 主 库 和 多 个 备 库 


很 难说 当 备 库 数 据 达 到 多 少时 需要 一 个 分 发 主 库 。 按 照 通用 准 
则 ， 如 果 主 库 接近 满 负载 ， 不 应 该 为 其 建立 10 个 以 上 的 备 库 。 如 果 有 
少量 的 写 操作 ， 或 者 只 复制 其 中 一 部 分 表 ， 主 库 就 可 以 提供 更 多 的 复 
制 。 另 外 ， 也 不 一 定 只 使 用 一 个 分 发 主 库 。 如 果 需 要 的 话 ， 可 以 使 用 
多 个 分 发 主 库 向 大 量 的 备 库 进 行 复制 ， 或 者 使 用 金字 塔 状 的 分 发 主 
库 。 在 某 些 情况 下 ， 可 以 通过 设置 slave_compressed_protocol 来 节约 一 
些 主 库 带 宽 。 这 对 跨 数据 中 心 复制 很 有 好 处 。 


还 可 以 通过 分 发 主 库 实现 其 他 目的 ， 例 如 ， 对 二 进 制 日 志 事 件 执 
行 过 滤 和 重 写 规则 。 这 比 在 每 个 备 库 上 重复 进行 日 志 记 录 、 重 写 和 过 
滤 要 高 效 得 多 。 


如 果 在 分 发 主 库 上 使 用 blackhole 表 ， 可 以 支持 更 多 的 备 库 。 虽 然 
会 在 分 发 主 库 执行 查询 ， 但 其 代价 非常 小 ， 因 为 blackhole 表 中 没有 任 
何 数 据 。blockhole 表 的 缺点 是 其 存在 Bug， 例 如 在 某 些 情况 下 会 志 记 
将 自 增 ID 写 入 到 二 进 制 日 志 中 。 所 以 要 小 心 使 用 blackhole 表 (12。 


一 个 比较 常见 的 问题 是 如 何 确 保 分 发 服务 器 上 的 每 个 表 都 是 
blackhole 人 存储 5 引擎。 如 果 有 人 在 主 库 创建 了 一 个 表 并 指定 了 不 同 的 存 
储 引 擎 呢 ? 确实 ， 不 管 什 么 时 候 ， 在 备 库 上 使 用 不 同 的 存储 引擎 总 会 
导致 同样 的 问题 。 常 见 的 解决 方案 是 设置 服务 器 的 storage_engine 选 
项 : 


storage_engine=blackhole 


这 只 会 影响 那些 没有 指定 存储 引擎 的 CREATE TABLE 的 语句 。 如 
果 有 一 个 无 法 控制 的 应 用 ， 这 种 拓扑 结构 可 能 会 非常 脆弱 。 可 以 通过 
skip_innodb 选 项 禁止 IhnnoDB， 将 表 退 化 为 MyISAM。 但 你 无 法 禁止 
MyISAM®¥4Memory5|# 


使 用 分 发 主 库 另 外 一 个 主要 的 缺点 是 无 法 使 用 一 个 备 库 来 代替 主 
库 。 因 为 由 于 分 发 主 库 的 存在 ， 导 致 各 个 备 库 与 原始 主 库 的 二 进 制 日 
志 坐 标 已 经 不 相同 4)。 


10.4.7” 树 或 金字 塔 形 


如 果 正 在 将 主 库 复制 到 大 量 的 备 库 中 。 不 管 是 把 数据 分 发 到 不 同 
的 地 方 ， 还 是 提供 更 高 的 读 性 能 ， 使 用 金字 塔 结构 都 能 够 更 好 地 管 


理 ， 如 图 10-12 所 示 。 


这 种 设计 的 好 处 是 减轻 了 主 库 的 负担 ， 就 像 前 一 节 提 到 的 分 发 主 
库 一 样 。 它 的 缺点 是 中 间 层 出 现 的 任何 错误 都 会 影响 到 多 个 服务 器 。 
如 果 每 个 备 库 和 主 库 直接 相连 就 不 会 存在 这 样 的 问题 。 同 样 ， 中 间 层 
次 越 多 ， 处 理 故 障 会 更 困难 、 更 复杂 。 


主 库 | 
= se 
= p 
项 库 | E EF 
i Ba 
天 M x ‘a 
o se ee 
备 库 备课 备 库 备 库 


图 10-12 : 金字 塔 形 复制 拓扑 


10.4.8 ”定制 的 复制 方案 


MySQL 的 复制 非常 灵活 ， 可 以 根据 需要 定制 解决 方案 。 典 型 的 定 
制 方案 包括 组 合 过 滤 、 分 发 和 向 不 同 的 存储 引擎 复 制 。 也 可 以 使 用 < 黑 
客 手段 >， 例 如 ， 从 一 个 使 用 blackhole 存 储 引 擎 的 服务 器 上 复制 或 复制 
到 这 样 的 服务 器 上 (本 章 已 讨论 过 ) 。 可 以 根据 需要 任意 设计 。 这 其 
中 最 大 的 限制 是 合理 地 监控 和 管理 ， 以 及 所 拥有 资源 的 约束 (网 络 带 
宽 、CPU 能 力 等 ) o 


选择 性 复制 


为 了 利用 访问 局 部 性 原理 (locality of reference) ， 并 将 需要 读 的 
工作 集 驻 留 在 内 存 中 ， 可 以 复制 少量 数据 到 备 库 中 。 如 果 每 个 备 库 只 
拥有 主 库 的 一 部 分 数据 ， 并 且 将 读 分 配给 备 库 ， 就 可 以 更 好 地 利用 备 
库 的 内 存 。 并 且 每 个 备 库 也 只 有 主 库 一 部 分 的 写 入 负载 ， 这 样 主 库 的 
能 力 更 强 并 能 保证 备 库 延 迟 。 


这 个 方案 有 点 类 似 下 一 章 我 们 会 讨论 到 的 水 平 数据 划分 ， 但 它 的 
优势 在 于 主 库 包 含 了 所 有 的 数据 集 ， 这 意味 着 无 须 为 了 一 条 写 入 查询 
去 访问 多 个 服务 器 。 如 果 读 操作 无 法 在 备 库 上 找到 数据 ， 还 可 以 通过 
主 库 来 查询 。 即 使 不 能 从 备 库 上 读 取 所 有 数据 ， 也 可 以 移 除 大 量 的 主 
库 读 负担 。 


最 简单 的 方法 是 在 主 库 上 将 数据 划分 到 不 同 的 数据 库 里 。 然 后 将 
每 个 数据 库 复制 到 不 同 的 备 库 上 。 例 如 ， 若 需要 将 公司 的 每 一 个 部 门 
的 数据 复制 到 不 同 的 备 库 ， 可 以 创建 名 为 sales 、marketing、 
procurement 等 的 数据 库 ， 每 个 备 库 通过 选项 replicate_wild_do_table 选 
项 来 限制 给 定数 据 库 的 数据 。 下 面 是 sales 数 据 库 的 配置 : 


replicate_wild_do_table = sales.% 


也 可 以 通过 一 台 分 发 主 库 进行 分 发 。 举 个 例子 ， 如 果 想 通过 一 个 
很 慢 或 者 非常 昂贵 的 网 络 ， 从 一 台 负 载 很 高 的 数据 库 上 复制 一 部 分 数 
据 ， 就 可 以 使 用 一 个 包含 blackhole 表 和 过 滤 规 则 的 本 地 分 发 主 库 ， 分 
发 主 库 可 以 通过 复制 过 滤 移 除 不 需要 的 日 志 。 这 可 以 避免 在 主 库 上 进 
行 不 安全 的 日 志 选 项 设 定 ， 并 且 无 须 传输 所 有 的 数据 到 远程 备 库 。 


分 离 功能 


许多 应 用 都 混合 了 在 线 事务 处 理 (OLTP) 和 在 线 数据 分 析 
(OLAP) 的 查询 。OLTP 查 询 比较 短 并 且 是 事务 型 的 ，OLAP 查 询 则 
通常 很 大 ， 也 很 慢 ， 并 且 不 要 求 绝 对 最 新 的 数据 。 这 两 种 查询 给 服务 
器 带 来 的 负担 完全 不 同 ， 因 此 它们 需要 不 同 的 配置 ， 甚 至 可 能 使 用 不 
同 的 存储 引擎 或 者 硬件 。 


一 个 常见 的 办 法 是 将 OLTP 服 务 器 的 数据 复制 到 专门 为 OLAP 工 作 
负载 准备 的 备 库 上 。 这 些 备 库 可 以 有 不 同 的 硬件 、 配 置 、 索 引 或 者 不 
同 的 存储 引擎 。 如 果 决 定 在 备 库 上 执行 OLAP 查 询 ， 就 可 能 需要 忍受 
更 大 的 复制 延迟 或 降低 备 库 的 服务 质量 。 这 意味 着 在 一 个 非 专用 的 备 
库 上 执行 一 些 任务 时 ， 可 能 会 导致 不 可 接受 的 性 能 ， 例 如 执行 一 条 长 
时 间 | 运行 的 查询 。 


无 须 做 一 些 特殊 的 配置 ， 除 了 需要 选择 忽略 主 库 上 的 一 些 数 据 ， 
前 提 是 能 获得 明显 的 提升 。 即 使 通过 复制 过 滤器 过 滤 掉 一 小 部 分 的 数 
据 也 会 减少 1O 和 缓存 活动 。 


数据 归档 


可 以 在 备 库 上 实现 数据 归档 ， 也 就 是 说 可 以 在 备 库 上 保留 主 库 上 
删除 过 的 数据 ， 在 主 库 上 通过 delete 语 句 删除 数据 是 确保 delete 语 句 不 
传递 到 备 库 就 可 以 实现 。 有 两 种 通常 的 办 法 : 一 种 是 在 主 库 上 选择 
地 蔡 止 二 进 制 日 志 ， 另 一 种 是 在 备 库 上 使 用 replicate_ignore db 规则 
(是 的 ， 两 种 方法 都 很 危险 ) o 


第 一 种 方法 需要 先 将 SQL_LOG_BIN 设 置 为 0， 然 后 再 进行 数据 清 
理 。 这 种 方法 的 好 处 是 不 需要 在 备 库 进行 任何 配置 ， 由 于 SQL 语句 根 
本 没有 记录 到 二 进 制 日 志 中 ， 效 率 会 稍微 有 所 提升 。 最 大 缺点 也 正 因 
为 没有 将 在 主 库 的 修改 记录 下 来 ， 因 此 无 法 使 用 二 进 制 日 志 来 进行 审 
计 或 者 做 按时 间 点 的 数据 恢复 。 另 外 还 需要 SUPER 权 限 。 


第 二 种 方法 是 在 清理 数据 之 前 对 主 库 上 特定 的 数据 库 使 用 USE 语 
句 。 例 如 ， 可 以 创建 一 个 名 为 purge 的 数据 库 ， 然 后 在 备 库 的 my.cnf 文 
件 里 设置 replicate_ignore_db=purge 并 重启 服务 器 。 备 库 将 会 忽略 使 用 
了 USE 语 句 指定 的 数据 库 。 这 种 方法 没有 第 一 种 方法 的 缺点 ， 但 有 另 
一 个 小 小 的 缺点 : 备 库 需 要 去 读 取 它 不 需要 的 事件 。 另 外 ， 也 可 能 
人 在 purge 数 据 库 上 执行 非 清 理 查 询 ， 从 而 导致 备 库 无 法 重 放 该 事件 。 


Percona Toolkit 中 的 pt-archiver 支 持 以 上 两 种 方式 。 


“tp, 第 三 种 办 法 是 利用 binlog_ignore_db 来 过 滤 复 制 事件 。 但 正如 之 前 提 到 的 ， 这 是 一 


种 很 危险 的 操作 。 
将 备 库 用 作 全 文 检 索 


许多 应 用 要 求 合 并 事务 和 全 文 检索 。 然 而 在 写作 本 书 时 ， 仅 有 
MyISAM 支 持 全 文 检 索 ， 但 是 MyISAM 不 支持 事务 (在 MySQL 5.6 有 
一 个 实验 室 预览 版 本 实现 了 InnoDB 的 全 文 检 索 ， 但 尚未 GA) 。 一 个 
普遍 的 做 法 是 配置 一 台 备 库 ， 将 某 些 表 设 置 为 MyISAM 存 储 引 擎 ， 然 
后 创建 全 文 索引 并 执行 全 文 检索 查询 。 这 避免 了 在 主 库 上 同时 使 用 事 
务 型 和 非 事 务 型 存储 引擎 所 带 来 的 复制 问题 ， 减 轻 了 主 库 维护 全 文 索 
引 的 负担 。 


只 读 备 库 


许多 机 构 选 择 将 备 库 设置 为 只 读 ， 以 防止 在 备 库 进 行 的 无 意识 修 
改 导致 复制 中 断 。 可 以 通过 设置 read_only 选 项 来 实现 。 它 会 禁止 大 部 
分 与 操作 ， 除 了 复制 线程 和 拥有 超级 权限 的 用 户 以 及 临时 表 操 作 。 只 
要 不 给 也 不 应 该 给 普通 用 户 超级 权限 ， 这 应 该 是 很 完美 的 方法 。 


模拟 多 主 库 复 制 


当前 MySQL 不 支持 多 主 库 复制 (一 个 备 库 拥有 多 个 主 库 ) 。 但 是 
可 以 通过 把 一 台 备 库 轮 流 指向 多 人 台 主 库 的 方式 来 模拟 这 种 结构 。 例 
如 ， 可 以 先 将 备 库 指向 主 库 A， 运 行 片 刻 ， 再 将 其 指向 主 库 B 并 运行 片 
刻 ， 然 后 再 次 切换 回 主 库 A。 这 种 办 法 的 效果 取决 于 数据 以 及 两 台 主 
库 导 致 备 库 所 需 完 成 的 工作 量 。 如 果 主 库 的 负载 很 低 ， 并 且 主 库 之 间 
会 产生 更 新 冲突 ， 就 会 工作 得 很 好 。 


需要 做 一 些 额 外 的 工作 来 为 每 个 主 库 跟踪 二 进 制 日 志 坐标 。 可 能 
还 需要 保证 备 库 的 VO 线程 在 每 一 次 循环 提取 超过 需要 的 数据 ， 否 则 可 
能 会 因为 每 次 循环 反复 地 提取 和 抛弃 大 量 数据 导致 主 库 的 网 络 流量 和 
开销 明显 增 大 。 


还 可 以 使 用 主 - 主 (或 者 环形 ) 复制 结构 以 及 使 用 blackhole 存 储 引 
和 擎 表 的 备 库 来 进行 模拟 ， 如 图 10-13 所 示 。 
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图 10-13: 使 用 双 主 结构 和 blackhole 存 储 引擎 表 模 拟 多 主 复制 


在 这 种 配置 中 ， 两 台 主 库 拥有 自己 的 数据 ， 但 也 包含 了 对 方 的 
表 ， 但 是 对 方 的 表 使 用 blackhole 存 储 引 擎 以 避免 在 其 中 存储 实际 数 
据 。 备 库 和 其 中 任意 一 个 主 库 相 连 都 可 以 。 备 库 不 使 用 blackhole 存 储 
引擎 ， 因 此 其 对 两 个 主 库 而 言 都 是 有 效 的 。 


事实 上 并 不 一 定 需要 主 - 主 拓扑 结构 来 实现 ， 可 以 简单 地 将 server1 
复制 到 server2， 再 从 server2 复 制 到 备 库 。 如 果 在 server2 上 为 从 serverl 
上 复制 的 数据 使 用 blackhole 存 储 引 擎 ， 就 不 会 包含 任何 serverl 的 数 
据 ， 如 图 10-14 所 示 。 
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10-14: 另 一 种 模拟 多 主 复制 的 方法 


这 些 配 置 方法 常常 会 磁 到 一 些 常见 的 问题 ， 例 如 ， 更 新 冲突 或 者 
建 表 时 明确 指定 存储 引擎。 


另外 一 个 选择 是 使 用 Continuent 的 Tungsten Replicator， 我 们 会 在 
本 章 稍 后 部 分 讨论 。 


创建 日 志 服 务 器 


使 用 MySQL 复 制 的 另 一 种 用 途 就 是 创建 没有 数据 的 日 志 服 务 器 。 
它 唯 一 的 目的 就 是 更 加 容易 重 放 并 且 / 或 者 过 滤 二 进 制 日 志 事件 。 就 如 
本 章 稍 后 所 述 ， 它 对 衣 溃 后 重启 复制 很 有 帮助 。 同 时 对 基于 时 间 点 的 
恢复 也 很 有 帮助 ， 在 第 15 章 我 们 会 讨论 。 


假设 有 一 组 二 进 制 日 志 或 中 继 日 志 一 一 可 能 从 备份 或 者 一 台 朋 帝 
的 服务 器 上 获取 一 一 希望 能 够 重 放 这 些 日 志 中 的 事件 ， 可 以 通过 
ee 但 更 加 方便 和 高 效 的 方法 是 配置 
没有 任何 数据 的 MySQL 实 例 并 使 其 认为 这 些 二 i 
本 i. 果 只 是 临时 需要 ， 可 以 从 http:/mysqlsandbox.net 上 获得 一 
MySQL 阔 箱 脚 本 来 创建 日 志 服 务 器 。 因 为 无 须 执 行 二 进 制 日 志 ， 
服务 器 也 就 不 需要 任何 数据 。 它 的 目的 仅仅 是 将 数据 提供 给 别 的 服务 
器 (但 复制 账户 还 是 需要 的 ) o 


AE E ( 稍 后 会 展示 一 些 相关 应 用 ) o 
假设 日 志 被 命名 为 Somelog-bin.000001、somelog-bin.000002， 等 等 ， 将 
A a E 假设 为 War/log/mysql。 然 
后 在 启动 服务 器 前 编辑 my.cnf 文 件 ， 如 下 所 示 : 


件 。 


log_bin = /var/log/mysql/somelog-bin 


log_bin_index = /var/log/mysql/somelog-bin. index 


服务 器 不 会 目 动 发 现 日 志文 件 ， 因 此 还 需要 更 新 日 志 的 索引 文 
下 面 这 个 命令 可 以 在 类 UNIX 系 统 上 完成 (9。 


# /bin/ls -1 /var/log/mysql/somelog-bin.[0-9]* > 


/var/log/mysql/somelog-bin.index 


确保 运行 MySQL 的 账 尸 能 够 读 写 日 志 索 引文 件 。 现 在 可 以 局 动 日 


志 服 务 器 并 通过 SHOW MASTER LOGS 命 令 来 确保 其 找到 日 志文 件 。 


为 什么 使 用 日 志 服 务 器 比 用 mysglbinlog 来 实现 恢复 更 好 呢 ? 有 以 


下 几 个 原因 : 


复制 作为 应 用 二 进 制 日 志 的 方法 已 经 被 大 量 的 用 户 所 测试 ， 能 够 
证 明 是 可 行 的 。mysqlbinlog 并 不 能 确保 像 复制 那样 工作 ， 并 且 可 
能 无 法 正确 生成 二 进 制 日 志 中 的 数据 更 新 。 

复制 的 速度 更 快 ， 因 为 无 须 将 语句 从 日 志 导 出 来 并 传送 给 
MySQLo 

可 以 很 容易 观察 到 复制 过 程 。 

能 够 更 方便 处 理 错误 。 例 如 ， 可 以 跳 过 执行 失败 的 语句 。 

更 方便 过 滤 复 制 事件 。 

有 时 候 mysqlbinlog 会 因为 日 志 记 录 格 式 更 改 而 无 法 读 取 二 进 制 日 


= 
/NO 


10.5 ”复制 和 容量 规划 


写 操 作 通 单 是 复制 的 瓶颈 ， 并 且 很 难 使 用 复制 来 扩展 写 操 作 。 妆 
计划 为 系统 增加 复制 容量 时 ， 需 要 确保 进行 了 正确 的 计算 ， 否 则 很 容 
易 犯 一 些 复制 相关 的 错误 。 


例如 ， 假 设 工 作 负载 为 20% 的 写 以 及 80% 的 读 。 为 了 计算 简单 ， 
假设 有 以 下 前 提 : 


。 读 和 写 查 询 包 含 同 样 的 工作 量 。 

。 所 有 的 服务 器 是 等 同 的 ， 每 秒 能 进行 1000 次 查询 。 
。 备 库 和 主 库 有 同样 的 性 能 特征 。 

。 可 以 把 所 有 的 读 操作 转移 到 备 库 。 


如 果 当 前 有 一 个 服务 器 能 支持 每 秒 1000 次 查询 ， 那 么 应 该 增加 多 
少 备 库 才 能 处 理 当 前 两 倍 的 负载 ， 并 将 所 有 的 读 查 询 分 配给 备 库 ? 


看 上 去 应 该 增加 两 个 备 库 并 将 1 600 次 读 操作 平分 给 它们 。 但 是 不 
忘记 ， 写 入 负载 同样 增加 到 了 400 次 每 秒 ， 并 且 无 法 在 主 备 服务 器 之 
间 进 行 分 摊 。 每 个 备 库 每 秒 必须 处 理 400 次 写 入 ， 这 意味 着 每 个 备 库 写 
入 占 了 40%， 只 能 每 秒 为 600 次 查询 提供 服务 。 因 此 ， 需 要 三 台 而 不 是 
台 备 库 来 处 理 双 倍 负载 。 


如 果 负 载 再 增加 一 倍 呢 ? 将 有 每 秒 800 次 写 入 ， 这 时 候 主 库 还 能 处 
理 ， 但 备 库 的 写 入 同样 也 提升 到 80%， 这 样 就 需要 16 台 备 库 来 处 理 每 
秒 3 200 次 读 查 询 。 并 且 如 果 再 增加 一 点 负载 ， 主 库 也 会 无 法 承担 。 


这 远 远 不 是 线性 扩展 ， 查 询 数量 增加 4 倍 ， 却 需要 增加 17 倍 的 服务 
器 。 这 说 明 当 为 单 台 主 库 增加 备 库 时 ， 将 很 快 达到 投入 远 高 于 回报 的 
地 步 。 这 仅仅 是 基于 上 面 的 假设 ， 还 忽略 了 一 些 事情 ， 例 如 ， 单 线程 
的 基于 语句 的 复制 常常 导致 备 库容 量 小 于 主 库 。 真 实 的 复制 配置 比 我 
们 的 理论 计算 还 要 更 差 。 


10.5.1 为 什么 复制 无 法 扩展 写 操 作 


糟糕 的 服务 容量 比例 的 根本 原因 是 不 能 像 分 发 读 操 作 那 样 把 写 操 
作 等 同 地 分 发 到 更 多 服务 器 上 。 换 句 话 说， 复制 只 能 扩展 读 操 作 ， 无 
法 扩展 写 操 作 。 


你 可 能 想 知 道 到 底 有 没有 办 法 使 用 复制 来 增加 写 入 能 力 。 答 案 是 
否定 的 ， 根 本 不 行 。 对 数据 进行 分 区 是 唯一 可 以 扩展 写 入 的 方法 ， 我 
们 在 下 一 章 会 讲 到 。 


一 些 读 者 可 能 会 想到 使 用 主 - 主 拓扑 结构 (参阅 前 面 介 绍 的 “主动 - 
主动 模式 下 的 主 - 主 复制 ”) 并 为 两 个 服务 器 执行 写 操作 。 这 种 配置 比 
主 备 结构 能 支持 稍微 多 一 点 的 写 入 ， 因 为 可 以 在 两 台 服 务 器 之 间 共 享 
串 行 化 带 来 的 开销 。 如 果 每 台 服 务 器 上 执行 50% 的 写 入 ， 那 复制 的 执 
行 量 也 只 有 50% 需 要 串 行 化 。 理 论 上 讲 ， 这 比 在 一 台 机 器 上 (ER) 
对 100% 的 写 入 并 发 执行 ， 而 在 另外 一 台 机 器 (BH) 上 对 100% 的 写 
入 做 串 行 化 要 更 优 。 这 可 能 看 起 来 很 吸引 人 ， 人 然而 这 种 配置 还 比 不 上 
单 台 服务 器 能 支持 的 写 入 。 一 个 有 509% 的 写 入 被 串 行 化 的 服务 右 性 能 
比 一 台 全 部 写 入 都 并 行 化 的 服务 器 性 能 要 低 。 


这 是 这 种 策略 不 能 扩展 写 入 的 原因 。 它 只 能 在 两 台 服 务 器 间 共 享 
串 行 化 写 入 的 缺点 。 所 以 “ 链 中 最 弱 的 一 环 ” 并 不 是 那么 弱 ， 它 只 提供 
了 比 主动 -被 动 复制 稍微 好 点 的 性 能 ， 但 是 增加 了 很 大 的 风险 ， 通 常 不 
能 市 来 任何 好 人 处， 具体 原因 见 下 一 节 。 


10.5.2 ” 备 库 什么 时 候 开 始 延 迟 


一 个 关于 备 库 比较 普 志 的 问题 是 如 何 预测 备 库 会 在 何 时 跟 不 上 主 
库 。 很 难 去 描述 备 库 使 用 的 复制 容量 为 5% 与 95% 的 区 别 ， 但 是 至 少 能 
够 在 接近 饱和 前 预警 并 估计 复制 容量 。 


首先 应 该 观察 复制 延迟 的 尖 刺 。 如 果 有 复制 延迟 的 曲线 图 ， 需 要 
注意 到 图 上 的 一 些 短暂 的 延迟 骤 升 ， 这 时 候 可 能 负载 加 大 ， 备 库 短 时 
间 内 无 法 跟 上 主 库 。 当 负载 接近 耗 尽 备 库 的 容量 时 ， 会 发 现 曲 线 上 的 
凸 起 会 更 高 更 宽 。 前 面 曲 线 的 上 升 角度 不 变 ， 但 随后 当 备 库 在 产生 延 
述 后 开始 追赶 主 库 时 ， 将 会 产生 一 个 平缓 的 科 坡 。 这 些 突起 的 出 现 和 
增长 是 一 个 警告 信息 ， 意 味 着 已 经 接近 容量 限制 。 


为 了 预测 在 将 来 的 某 个 时 间 点 会 发 生 什么 ， 可 以 人 为 地 制造 延 
迟 ， 然 后 看 多 久 备 库 能 赶 上 主 库 。 目 的 是 为 了 明确 地 说 明 曲 线 上 的 斜 
坡 的 陡 度 。 如 果 将 备 库 停止 一 个 小 时 ， 然 后 开启 并 在 1 小 时 内 追赶 上 ， 
说 明正 常情 况 下 只 消耗 了 一 半 的 容量 。 也 就 是 说 ， 如 果 中 午 12:00 停 止 
备 库 复制 ， 在 1:00 开 启 ， 并 且 在 2:00 追 赶 上 ， 备 库 在 一 小 时 内 完成 了 
两 个 小 时 内 所 有 的 变更 ， 说 明 复 制 可 以 在 双 倍 速度 下 运行 。 


最 后 ， 如 果 使 用 的 是 Percona Server 或 者 MariaDB ， 也 可 以 直接 获 
取 复 制 的 利用 率 。 打 开 服 务 器 变量 userstat， 然 后 执行 如 下 语句 : 


mysql> SELECT * FROM INFORMATION_SCHEMA.USER_STATISTICS 


-> WHERE USER='#mysql_system#'\G 
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类 火炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


USER: #mysql_system# 
OTAL_CONNECTIONS: 1 
CONCURRENT_CONNECTIONS: 2 
CONNECTED_TIME: 46188 
BUSY_TIME: 719 
ROWS_FETCHED: 0 
ROWS_UPDATED: 1882292 
SELECT_COMMANDS: 0 
UPDATE_COMMANDS: 580431 
OTHER_COMMANDS: 338857 
COMMIT_TRANSACTIONS: 1016571 


ROLLBACK_TRANSACTIONS: 0 


可 以 将 BUSY_TIME 和 CONNECTED_TIME 的 一 半 (因为 备 库 有 
两 个 复制 线程 ) 做 比较 ， 来 观察 备 库 线程 实际 执行 命令 所 花费 的 时 间 ] 
(3)。 在 我 们 的 例子 里 ， 备 库 大 约 使 用 了 其 3% 的 能 力 ， 这 并 不 意味 着 
它 不 会 遇 到 偶然 的 延迟 尖 刺 一 一 如 果 主 库 运 行 了 一 个 超过 10 分 钟 才 完 
成 的 变更 ， 可 能 延迟 的 时 间 和 变更 执行 的 时 间 是 相同 的 一 一 但 这 很 好 
地 暗示 了 备 库 能 够 很 快 从 一 个 延迟 尖 刺 中 恢复 。 


10.5.3 ”规划 宛 余 容量 


在 构建 一 个 大 型 应 用 时 ， 有 意 让 服务 器 不 被 充分 使 用 ， 这 应 该 是 
一 种 聪明 并 且 划 算 的 方式 ， 尤 其 在 使 用 复制 的 时 候 。 有 多 余 容量 的 服 
务 器 可 以 更 好 地 处 理 负载 尖峰 ， 也 有 更 多 能 力 处 理 慢 速 查询 和 维护 工 
作 (如 OPTIMIZE TABLE 操 作 ) ， 并 且 能 够 更 好 地 跟 上 复制 。 


试图 同时 向 主 - 主 拓扑 结构 的 两 个 节点 写 入 来 减少 复制 问题 通 弟 是 
不 划算 的 。 分 配给 每 台 机 器 的 读 负载 应 该 低 于 50% ， 否 则 ， 如 果 某 人 台 
服务 器 失效 ， 就 没有 足够 的 容量 了 。 如 果 两 台 服 务 器 都 能 够 独立 处 理 
负载 ， 就 用 不 着 担心 复制 的 问题 了 。 

构建 元 余 容 量 也 是 实现 高 可 用 性 的 最 佳 方式 之 一 ， 当 然 还 有 别 的 
方式 ， 例 如 ， 当 错误 发 生 时 让 应 用 在 降级 模式 下 运行 ， 第 12 章 会 介绍 
更 多 的 细节 。 


10.6 ”复制 管理 和 维护 


配置 复制 一 般 来 说 不 会 是 需要 经 常 做 的 工作 ， 除 非 有 很 多 服务 
器 。 但 是 一 旦 配置 了 复制 ， 监 控 和 管理 复制 拓扑 应 该 成 为 一 项 日 常 工 
作 ， 不 管 有 多 少 服务 器 。 


这 些 工作 应 该 尽量 自动 化 ， 但 不 一 定 需要 自己 写 工 具 来 实现 : 在 
16 章 我 们 讨论 了 几 个 MySQL 工 具 ， 其 中 许多 都 拥有 内 建 的 监控 复制 的 
能 力 或 插件 。 


10.6.1 ”监控 复制 


复制 增加 了 MySQL 监 控 的 复杂 性 。 尽 管 复制 友 生 在 主 库 和 备 库 
E, 但 大 多 数 工 作 是 在 备 库 上 完成 的 ， 这 也 正 是 最 常 出 问题 的 地 方 。 
是 否 所 有 的 备 库 都 在 工作 ? 最 慢 的 备 库 延 迟 是 多 大 ”MySQL 本 身 提 供 
了 大 量 可 以 回答 上 述 问题 的 信息 ， 但 要 实现 自动 化 监控 过 程 以 及 使 复 
制 更 健壮 还 是 需要 用 户 做 更 多 的 工作 。 


在 主 库 上 ， 可 以 使 用 SHOW MASTER STATUS 命令 来 查看 当前 主 
库 的 二 进 制 日 志 位 置 和 配置 (详细 参阅 前 面 介 绍 的 “配置 主 库 和 备 库 ” 
部 分 ) 。 还 可 以 查看 主 库 当 前 有 哪些 二 进 制 日 志 是 在 磁盘 上 的 : 


| Log name | File size | 
+------------------ +----------- + 
| mysql-bin.000220 | 425605 | 
| mysql-bin.000221 | 1134128 | 
| mysql-bin.000222 | 13653 | 
| mysql-bin.000223 | 13634 | 
+------------------ +----------- + 


该 命令 用 于 给 PURGE MASTER LOGS 命 令 决定 使 用 哪个 参数 。 另 
外 还 可 以 通过 SHOW BINLOG EVENTS 来 查看 复制 事件 。 例 如 ， 在 运 
行 前 一 个 命令 后 ， 我 们 在 另 一 个 不 曾 使 用 过 的 服务 器 上 创建 一 个 表 ， 
因为 知道 这 是 唯一 改变 数据 的 语句 ， 而 且 也 知道 语句 在 二 进 制 日 志 
的 偏 移 量 是 13634， 所 以 我 们 可 以 看 到 如 下 内 容 : 


mysql> SHOW BINLOG EVENTS IN 'mysql-bin.000223' FROM 
13634\G 
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Log_name: mysql-bin.000223 


Pos: 13634 


Event_type: Query 
Server_id: 1 
End_log_pos: 13723 


Info: use `test`; CREATE TABLE test.t(a int) 


10.6.2 ”测量 备 库 延迟 


一 个 比较 普遍 的 问题 是 如 何 监控 备 库 落 后 主 库 的 延迟 有 和 多大。 时 


然 SHOW SLAVE STATUS 输出 的 Seconds_behind_master 列 理论 上 显示 
了 备 库 的 延 时 ， 但 由 于 各 种 各 样 的 原因 ， 并 不 总 是 准确 的 : 


备 库 Seconds_behind_master 值 是 通过 将 服务 器 当前 的 时 间 惟 与 二 
进 制 日 志 中 的 事件 的 时 间 戳 相对 比 得 到 的 ， 所 以 只 有 在 执行 事件 
BY 7 BEHR a WEIR. 

如 果 备 库 复制 线程 没有 运行 ， 就 会 报 延 迟 为 NULL。 

一 些 错 误 〈 例 如 主 备 的 max_allowed_packet 不 匹配 ， 或 者 网 络 不 稳 
E) 可 能 中 断 复制 并 且 / 或 者 停止 复制 线程 ， 但 
Seconds_behind_master 将 显示 为 0 而 不 是 显示 错误 。 

即使 备 库 线程 正在 运行 ， 备 库 有 时 候 可 能 无 法 计算 延 时 。 如 果 发 
生 这 种 情况 ， 备 库 会 报 0 或 者 NULL。 

一 个 大 事务 可 能 会 导致 延迟 疲 动 ， 例 如 ， 有 一 个 事务 更 新 数据 长 
达 一 个 小 时 ， 最 后 提交 。 这 条 更 新 将 比 它 实 际 发 生 时 间 要 晚 一 个 
小 时 才 记 录 到 二 进 制 日 志 中 。 当 备 库 执行 这 条 语句 时 ， 会 临时 地 
报告 备 库 延迟 为 一 个 小 时 ， 然 后 又 很 快 变 成 0。 

如 果 分 发 主 库 落后 了 ， 并 且 其 本 身 也 有 已 经 追赶 上 它 的 备 库 ， 备 
库 的 延迟 将 显示 为 0， 而 事实 上 和 源 主 库 之 间 是 有 延迟 的 。 


解决 这 些 问题 的 办 法 是 忽略 Seconds_behind_master 的 值 ， 并 使 用 
一 些 可 以 直接 观察 和 衡量 的 方式 来 监控 备 库 延迟 。 最 好 的 解决 办 法 是 
使 用 heartbeat record ， 这 是 一 个 在 主 库 上 会 每 秒 更 新 一 次 的 时 间 惟 。 
为 了 计算 延 时 ， 可 以 直接 用 备 库 当 前 的 时 间 戳 减 去 心跳 记录 的 值 。 这 
个 方法 能 够 解决 刚刚 我 们 提 到 的 所 有 问题 ， 另 外 一 个 额外 的 好 处 是 我 
们 还 可 以 通过 时 间 惟 知道 备 库 当 前 的 复制 状况 。 包 含 在 Percona Toolkit 
里 的 ptheartbeat 脚 本 是 “复制 心跳 ”最 流行 的 一 种 实现 。 


心跳 还 有 其 他 好 处 ， 记 录 在 二 进 制 日 志 中 的 心跳 记录 拥有 许多 用 
途 ， 例 如 在 一 些 很 难 解 决 的 场景 下 可 以 用 于 灾难 恢复 。 


我 们 刚刚 所 描述 的 几 种 延迟 指标 都 不 能 表明 备 库 需要 多 长 时 间 才 
能 赶 上 主 库 。 这 依赖 于 许多 因素 ， 例 如 备 库 的 写 入 能 力 以 及 主 库 持 续 
写 入 的 次 数 。 关 于 这 个 话题 ， 详 细 参 阅 前 面 介 绍 的 “ 何 时 备 库 开始 延 


10.6.3 ”确定 主 备 是 否 一 致 


在 理想 情况 下 ， 备 库 和 主 库 的 数据 应 该 是 完全 一 样 的 。 但 事实 上 
备 库 可 能 发 生 错 误 并 导致 数据 不 一 致 。 即 使 没有 明显 的 错误 ， 备 库 同 
样 可 能 因为 MySQL 自 身 的 特性 导致 数据 不 一 致 ， 例 如 MySQL 的 Bug、 
网 络 中 断 、 服 务 器 骨 溃 ， 非 正常 关闭 或 者 其 他 一 些 错误 。49) 


按照 我 们 的 经 验 来 看 ， 主 备 一 致 应 该 是 一 种 规范 ， 而 不 是 例外 ， 
也 就 是 说 ， 检 查 你 的 主 备 一 致 性 应 该 是 一 个 日 常 工作 ， 特 别 是 当 使 用 
备 库 来 做 备份 时 尤为 重要 ， 因 为 你 肯定 不 希望 从 一 个 已 经 损坏 的 备 库 
里 获得 备份 数据 。 


MySQL 并 没有 内 建 的 方法 来 比较 一 台 服 务 器 与 别 的 服务 器 的 数据 
是 否 相 同 。 它 提供 了 一 些 组 件 来 为 表 和 数据 生成 校 验 值 ， 例 如 
CHECKSUM TABLE。 但 当 复 制 正在 进行 时 ， 这 种 方法 是 不 可 行 的 。 


Percona Toolkit 里 的 pt-table-checksum 能 够 解决 上 述 几 个 问题 。 其 
主要 特性 是 用 于 确认 备 库 与 主 库 的 数据 是 否 一 致 。 工 作 方 式 是 通过 在 
主 库 上 执行 INSERT..SELECT 查 询 。 


这 些 查 询 对 数据 进行 校 验 并 将 结果 插入 到 一 个 表 中 。 这 些 语句 通 
过 复制 传递 到 备 库 ， 并 在 备 库 执行 一 遍 ， 然 后 可 以 比较 主 备 上 的 结果 
是 否 一 样 。 由 于 该 方法 是 通过 复制 工作 的 ， 它 能 够 给 出 一 致 的 结果 而 
无 须 同时 把 主 备 上 的 表 都 锁 上 。 


通常 情况 下 可 以 在 主 库 上 运行 该 工具 ， 参 数 如 下 : 


$ pt-table-checksum --replicate=test.checksum <master_host> 


该 命令 将 检查 所 有 的 表 ， 并 将 结果 插入 到 test.checksum 表 中 。 当 查 
询 在 备 库 执行 完 后 ， 就 可 以 简单 地 比较 主 备 之 间 的 不 同 了 。pt-table- 
checksum 能 够 发 现 服务 器 所 有 的 备 库 ， 在 每 台 备 库 上 运行 查询 ， 并 自 
动 地 输出 结果 。 在 写作 本 书 时 ，pt-table-checksum 是 唯一 能 够 有 效 地 上 比 
较 主 备 一 致 性 的 工具 。 


10.6.4 ”从 主 库 重新 同步 备 库 


在 你 的 职业 生涯 中 ， 也 许 会 不 止 一 次 需要 去 人 处理 未 被 同步 的 备 
库 。 可 能 是 使 用 校 验 工具 发 现 了 数据 不 一 致 ， 或 是 因为 已 经 知道 是 备 


库 忽 略 了 某 条 查询 或 者 有 人 在 备 库 上 修改 了 数据 。 


传统 的 修复 不 一 致 的 办 法 是 关闭 备 库 ， 然 后 重新 从 主 库 复 制 一 份 
数据 。 当 备 库 数 据 不 一 致 的 问题 可 能 导致 严重 后 果 时 ， 一 旦 发 现 就 应 
该 将 备 库 停止 并 从 生产 环境 移 除 ， 然 后 再 从 一 个 备份 中 克隆 或 恢复 备 
库 。 


这 种 方法 的 缺点 是 不 太 方 便 ， 特 别 是 数据 量 很 大 时 。 如 果 能 够 找 
出 并 修复 不 一 致 的 数据 ， 要 比 从 其 他 服务 器 上 重新 克隆 效 据 要 有 效 得 
多 。 如 果 发 现 的 不 一 致 并 不 严重 ， 就 可 以 保持 备 库 在 线 ， 并 重新 同步 
受 影响 的 数据 。 


最 简单 的 办 法 是 使 用 mysqldump 转 储 受 影响 的 数据 并 重新 导入 。 
在 整个 过 程 中 ， 如 果 数 据 没 有 发 生变 化 ， 这 种 方法 会 很 好 。 你 可 以 在 
主 库 上 简单 地 锁 住 表 然 后 进行 转 储 ， 再 等 待 备 库 赶 上 主 库 ， 然 后 将 数 
据 导 入 到 备 库 中 。 (需要 等 待 备 库 赶 上 主 库 ， 这 样 就 不 至 于 为 其 他 表 
引入 新 的 不 一 致 ， 例 如 那些 可 能 通过 和 失去 同步 的 表 做 join 后 进行 数 
据 更 新 的 表 ) o 


虽然 这 种 方法 在 许多 场景 下 是 可 行 的 ， 但 在 一 个 繁忙 的 服务 器 上 
有 可 能 行 不 通 。 另 外 一 个 缺点 是 在 备 库 上 通过 非 复 制 的 方式 改变 交 
据 。 通 过 复制 改变 备 库 数据 (通过 在 主 库 上 执行 更 新 ) 通常 是 一 种 安 
全 的 技术 ， 因 为 它 避 免 了 竞争 条 件 和 其 他 意料 外 的 事情 。 如 果 表 很 大 
或 者 网 络 带宽 受 限 ， 转 储 和 重 载 数据 的 代价 依然 很 高 。 当 在 一 个 有 一 
百 万 行 的 表 上 只 有 一 千 行 不 同 的 数据 呢 ? 转 储 和 重 载 表 的 效 据 是 非 单 
浪费 资源 的 。 


pt-table-sync# Percona Toolkit 中 的 另外 一 个 工具 ， 可 以 解决 该 问 
题 。 该 工具 能 够 高 效 地 查找 并 解决 表 之 间 的 不 同 。 它 同样 通过 复制 工 
作 ， 在 主 库 上 执行 查询 ， 在 备 库 上 重新 同步 ， 这 样 就 没有 竞争 条 件 。 
它 是 结合 pt-table-checksum 生 成 的 checksum 表 来 工作 的 ， 所 以 只 能 操作 
那些 已 知 不 同步 的 表 的 数据 块 。 但 该 工具 不 是 在 所 有 场景 下 都 有 效 。 
为 了 正确 地 同步 主 库 和 备 库 ， 该 工具 要 求 复制 是 正常 的 ， 否 则 就 无 法 
工作 。pt-table-sync 设 计 得 很 高 效 ， 但 当 数 据 量 非常 大 时 效率 还 是 会 很 
低 。 比 较 主 库 和 备 库 上 1TB 的 数据 不 可 避免 地 会 带 来 额外 的 工作 。 尽 
管 如 此 ， 在 那些 合适 的 场景 中 ， 该 工具 依然 能 节约 大 量 的 时 间 和 工 
作 。 


10.65 MEER 


人 述 早 会 有 把 备 库 指向 一 个 新 的 主 库 的 需求 。 也 许 是 为 了 更 迭 升 级 
服务 器 ， 或 者 是 主 库 出 现 问题 时 需要 把 一 台 备 库 转 换 成 主 库 ， 或 者 只 
是 希望 重新 分 配 容量 。 不 管 出 于 什么 原因 ， 都 需要 告诉 其 他 的 备 库 新 
主 库 的 信息 。 


如 果 这 是 计划 内 的 操作 ， 会 比较 容易 (至 少 比 紧急 情况 下 要 容 
易 ) 。 只 需 在 备 库 简 单 地 使 用 CHANGE MASTER TO 命令 ， 并 指定 合 
适 的 值 。 大 多 数值 都 是 可 选 的 。 只 需要 指定 需要 改变 的 项 即 可 。 备 库 
将 抛弃 之 前 的 配置 和 中 继 日 志 并 从 新 的 主 库 开 始 复制 。 同 样 新 的 参数 
会 被 更 新 到 master.info 文 件 中 ， 这 样 就 算 重启 ， 备 库 配 置信 息 也 不 会 丢 
失 。 


整个 过 程 中 最 难 的 是 获取 新 主 库 上 合适 的 二 进 制 日 志 位 置 ， 这 样 
备 库 才 可 以 从 和 老 主 库 相同 的 逻辑 位 置 开 始 复制 。 


把 备 库 提升 为 主 库 要 更 困难 一 点 。 有 两 种 场景 需要 将 备 库 蔡 换 为 


主 库 ， 一 种 是 计划 内 的 提升 ， 一 种 是 计划 外 的 提升 。 


计划 内 的 提升 


1. 
2. 
3. 
4. 


构 。 


PP 


y 


把 备 库 提 升 为 主 库 理 论 上 是 很 简单 的 。 简 单 来 说 ， 有 以 下 步骤 : 


停止 向 老 的 主 库 写 入 。 

让 备 库 追 在 上 主 库 (可 选 的 ， 会 简化 下 面 的 步骤 ) 。 
将 一 台 备 库 配置 为 新 的 主 库 。 

将 备 库 和 写 操 作 指 向 新 的 主 库 ， 然 后 开启 主 库 的 写 入 。 


但 这 其 中 还 隐藏 着 很 多 细节 。 一 些 场景 可 能 依赖 于 复制 的 拓扑 结 
例如 ， 主 - 主 结构 和 主 - 备 结构 的 配置 就 有 所 不 同 。 


更 深入 一 上 各 ， 下 面 是 大 多 数 配 置 需要 的 步 又 : 


停止 当前 主 库 上 的 所 有 写 操作 。 如 果 可 以 ， 最 好 能 将 所 有 的 客户 
端 程序 关闭 (除了 复制 连接 ) 。 为 客户 端 程序 建立 一 个 “do not 
run” 这 样 的 类 似 标 记 可 能 会 有 所 帮助 。 如 果 正 在 使 用 虚拟 卫 地 
址 ， 也 可 以 简单 地 关闭 虚拟 IP， 然 后 断 开 所 有 的 客户 端 连接 以 关 
闭 其 打开 的 事务 。 

通过 FLUSH TABLES WITH READ LOCK 在 主 库 上 停止 所 有 活跃 
的 写 入 ， 这 一 步 是 可 选 的 。 也 可 以 在 主 库 上 设置 read_only 选 项 。 
从 这 一 刻 开 始 ， 应 该 禁止 向 即将 被 替换 的 主 库 做 任何 写 入 。 因 为 
一 旦 它 不 是 主 库 ， 写 入 就 意味 着 数据 丢失 。 注 意 ， 即 使 设置 
read_only 也 不 会 阻止 当前 已 存在 的 事务 继续 提交 。 为 了 更 好 地 保 


证 这 一 点 ， 可 以 “kill* 所 有 打开 的 事务 ， 这 将 会 真正 地 结束 所 有 写 
入 。 

3. 选择 一 个 备 库 作为 新 的 主 库 ， 并 确保 它 已 经 完全 跟 上 主 库 ( 例 
如 ， 让 它 执 行 完 所 有 从 主 库 获得 的 中 继 日 志 ) o 

4. 确保 新 主 库 和 旧 主 库 的 数据 是 一 致 的 。 可 选 。 

5. 在 新 主 库 上 执行 STOP SLAVE。 

6. 在 新 主 库 上 执行 CHANGE MASTER TO MASTER_HOST="， 然 后 
再 执行 RESET SLAVE ， 使 其 断 开 与 老 主 库 的 连接 ， 并 丢弃 
master.info 里 记录 的 信息 (如 果 连 接 信息 记录 在 my.cnf 里 ， 会 无 法 
正确 工作 ， 这 也 是 我 们 建议 不 要 把 复制 连接 信息 写 到 配置 文件 里 
的 原因 之 一 ) 。 

7. 执行 SHOW MASTER STATUS 记录 新 主 库 的 二 进 制 日 志 坐 标 。 

8. 确保 其 他 备 库 已 经 追赶 上 。 

9. 关闭 旧 主 库 。 

10. 在 MySQL 5.1 及 以 上 版 本 中 ， 如 果 需 要 ， 激 活 新 主 库 上 事件 。 

11. 将 客户 端 连接 到 新 主 库 。 

12. 在 每 台 备 库 上 执行 CHANGE MASTER TO 语句 ， 使 用 之 前 通过 
SHOW MASTER STATUS 获得 的 二 进 制 日 志 坐标 ， 来 指向 新 的 主 
库 。 


pA i 当 将 备 库 提升 为 主 库 时 ， 要 确保 备 库 上 任何 特有 的 数据 库 、 表 和 权限 已 经 被 移 
除 。 可 能 还 需要 修改 备 库 特有 的 配置 选项 ， 例如 innodb_flush_log_at_trx_commit 选 项 。 同 样 


的 ， 如 果 是 把 主 库 降 级 为 备 库 ， 也 要 保证 进行 需要 的 配置 。 


如 果 主 备 的 配置 相同 ， 就 不 需要 做 任何 改变 。 


计划 外 的 提升 


当主 库 朋 溃 时 ， 需 要 提升 一 台 备 库 来 代替 它 ， 这 个 过 程 可 能 就 不 
太 容 易 。 如 果 只 有 一 台 备 库 ， 可 以 直接 使 用 这 人 台 备 库 。 但 如 果 有 超过 
一 全 的 备 库 ， 束 需要 做 一 些 额外 的 工作 。 


另外 ， 还 有 次 在 的 丢失 复制 事件 的 问题 。 可 能 有 主 库 上 已 发 生 的 
修改 还 没有 更 新 到 它 的 任何 一 台 备 库 上 的 情况 。 甚 至 还 可 能 一 条 语句 
在 主 库 上 执行 了 回 滚 ， 但 在 备 库 上 没有 回 滚 ， 这 样 备 库 可 能 超过 主 库 
的 逻辑 复制 位 置 (W。 如 果 能 在 某 一 点 恢复 主 库 的 数据 ， 也 许 就 可 以 取 
得 丢失 的 语句 并 手动 执行 它们 。 


在 以 下 步骤 中 ， 需 要 确保 在 计算 中 使 用 Master_ Log_File 和 
Read_Master_Log_Pos 的 值 。 以 下 是 对 主 备 拓扑 结构 中 的 备 库 进行 提升 
的 过 程 : 


1. 确定 哪 台 备 库 的 数据 最 新 。 检 查 每 台 备 库 上 SHOW SLAVE 
STATUS 命令 的 输 出 ， 选择 其 中 
Master Log_File/read_Master Log_Pos 的 值 最 新 的 那个 。 

2. 让 所 有 备 库 执行 完 所 有 其 从 骨 溃 前 的 旧 主 库 那 获得 的 中 继 日 志 。 
如 果 在 未 完成 前 修改 备 库 的 主 库 ， 它 会 抛弃 剩 下 的 日 志 事 件 ， 从 
而 无 法 获知 该 备 库 在 什么 地 方 停止 。 

3. 执行 前 一 小 节 的 5~7 步 。 

4 tt R 每 台 备 库 和 新 = F&F 上 的 
Master_Log_File/Read_Master_Log_Pos 的 值 。 

5. 执行 前 一 小 市 的 10~12 步 。 


正如 本 章 开 始 我 们 推荐 的 ， 假 设 已 经 在 所 有 的 备 库 上 开启 了 
log_bin 和 log_slave_updates， 这 样 可 以 帮助 你 将 所 有 的 备 库 恢 复 到 一 个 


一 致 的 时 间 点 ， 如 果 没 有 开局 这 两 个 选项 ， 则 不 能 可 靠 地 做 到 这 一 
点 


mO 


确定 期 望 的 日 志 位 置 


如 果 有 备 库 和 新 主 库 的 位 置 不 相同 ， 则 需要 找到 该 备 库 最 后 一 条 
执行 的 事件 在 新 主 库 的 二 进 制 日 志 中 相应 的 位 置 ， 然 后 再 执行 
CHANGE MASTER TO。 可 以 通过 mysqlbinlog 工 具 来 找到 备 库 执行 的 
最 后 一 条 查询 ， 然 后 在 主 库 上 找到 同样 的 查询 ， 进 行 简单 的 计算 即 可 


得 到 。 


为 了 便于 描述 ， 假 设 每 个 日 志 事件 有 一 个 自 增 的 数字 ID ， 最 新 的 
备 库 ， 也 就 是 新 主 库 ， 在 旧 主 库 朋 冲 时 获得 了 编号 为 100 的 事件 ， 假 设 
有 另外 两 台 备 库 : replica2 和 replica3。replica2 已 经 获取 了 99 号 事件 ， 
replica3 获 取 了 98 号 事件 。 如 果 把 两 台 备 库 都 指向 新 主 库 的 同一 个 二 进 
制 日 志 位 置 ， 它 们 将 从 101 号 事件 开始 复制 ， 从 而 导致 数据 不 同步 。 但 
只 要 新 主 库 的 二 进 制 日 志 已 经 通过 log_slave_updates 打 开 ， 就 可 以 在 新 
主 库 的 二 进 制 日 志 中 找到 99 号 和 100 号 日 志 ， 从 而 将 备 库 恢 复 到 一 致 的 
状态 。 


由 于 服务 器 重启 ， 不 同 的 配置 , 日 志 轮 转 或 者 FLUSH LOGS 命 
令 ， 同 一 个 事件 在 不 同 的 服务 器 上 可 能 有 不 同 的 偏 移 量 。 找 到 这 些 事 
件 可 能 会 耗 时 很 长 并 且 枯 燥 ， 但 是 通常 没有 难度 。 通 过 mysqlbinlog 从 
二 进 制 日 志 或 中 继 日 志 中 解析 出 每 台 备 库 上 执行 的 最 后 一 个 事件 ， 并 
同样 使 用 该 命令 解析 新 主 库 上 的 二 进 制 日 志 ， 找 到 相同 的 查询 ， 
mysqlbinlog 会 打印 出 该 事件 的 偏 移 量 ， 在 CHANGE MASTER TO 命令 
中 使 用 这 个 值 (18)。 


更 快 的 方法 是 把 新 主 库 和 停止 的 备 库 上 的 字 节 偏 移 量 相 减 ， 它 显 
示 了 字 节 位 置 的 差异 。 然 后 把 这 个 值 和 新 主 库 当 前 二 进 制 日 志 的 位 置 
相 减 ， 就 可 以 得 到 期 望 的 查询 的 位 置 。 只 需要 验证 一 下 就 可 以 据 此 启 
动 备 库 。 


让 我 们 看 看 一 个 相关 的 例子 ， 假 设 server1 是 server2 和 server3 的 主 
库 ， 其 中 服务 器 server1l 已 经 朋 溃 。 根 据 SHOW SLAVE STATUS 获得 
T Log Pos 的 值 server2 已 经 执行 完了 
server1 上 所 有 的 二 进 制 日 志 ， 但 server3 还 不 是 最 新 数据 。 图 10-15 显 示 


了 这 个 场景 (日 志 事 件 和 偏 移 量 仅仅 是 为 了 举例 ) 。 


正如 图 10-15 所 示 ， 我 们 可 以 肯定 server2 已 经 执行 完了 主 库 上 的 所 
有 二 进 制 日 志 ， 因 为 Master Log File 和 Read Master Log Pos 值 和 
server1 上 最 后 的 日 志 位 置 是 相 吻 合 的 ， 因 此 我 们 可 以 将 server2 提 升 为 
新 主 库 ， 并 将 server3 设 置 为 server2 的 备 库 。 


全 
Server! 
> 


mysgl-bin.000001 


1450 | UPDATE 
1493 | DELETE 
1582 | INSERT 
Server2 wh Servers 


a 


Master_Log_File = mysql-bin.000001 Master_Log_File = mysql-bin.000001 
Read_Master. an Pos = 1582 Read_Master_Log_Pos = 1493 
mysql-bin. 000009 
8035 | UPDATE 为 了 清楚 起 见 ， 
8078 | DELETE AMIE SE 
167 | INSERT sett 


图 10-15: 当 server1 骨 溃 ， server2 已 追赶 上 ， 但 server3 的 复制 落后 


应 该 在 server 3 上 为 需要 执行 的 CHANGE MASTER TO 语句 赋予 什 
么 样 的 参数 呢 ? 这 里 需要 做 一 点 点 计算 和 调查 。server3 在 偏 移 量 1493 
停止 ， 比 server2 执 行 的 最 后 一 条 语句 的 偏 移 量 1582 要 小 89 字 节 。 
server2 正 在 向 偏 移 量 为 8167 的 二 进 制 日 志 写 入 ，8167-89= 8078， 因 此 
理论 上 我 们 应 该 将 server3 指 向 server2 的 日 志 的 偏 移 量 为 8078 的 位 置 。 
最 好 去 确认 下 这 个 位 置 附 近 的 日 志 事 件 ， 以 确定 在 该 位 置 上 是 否 是 正 
确 的 日 志 事 件 ， 因 为 可 能 有 别 的 例外 ， 例 如 有 些 更 新 可 能 只 发 生 在 


server2 上。 


假设 我 们 观察 到 的 事件 是 一 样 的 ， 下 面 这 条 命令 会 将 server3 切 换 
为 server2 的 备 库 。 


server2> CHANGE MASTER TO MASTER_HOST="Server2", 
MASTER_LOG_FILE="mysql-bin.000009", 
MASTER_LOG_POS=8078; 


如 果 服 务 器 在 它 骨 溃 时 已 经 执行 完成 并 记录 了 超过 一 个 事件 ， 会 
怎么 样 呢 ? 因为 server2 仅 仅 读 取 并 执行 到 了 偏 移 位 置 1582， 你 可 能 永 
远 地 失 去 了 一 个 事件 。 但 是 如 果 老 主 库 的 磁盘 没有 损坏 ， 仍 然 可 以 通 
过 mysqlbinlog 或 者 从 日 志 服 务 器 的 二 进 制 日 志 中 找到 丢失 的 事件 。 


如 果 需 要 从 老 主 库 上 恢复 丢失 的 事件 ， 建 议 在 提升 新 主 库 之 后 且 
在 允许 客户 端 连 接 之 前 做 这 件 事情 。 这 样 就 无 须 在 每 台 备 库 上 都 执行 
丢失 的 事件 ， 只 需 使 用 复制 来 完成 。 但 如 果 朋 溃 的 老 主 库 完 全 不 可 
用 ， 就 不 得 不 等 待 ， 稍 后 再 做 这 项 工作 。 


上 述 流程 中 一 个 可 调整 的 地 方 是 使 用 可 靠 的 方式 来 存储 二 进 制 日 
志 ， 如 SAN 或 分 布 式 复制 数据 库 设 备 (DRBD) 。 即 使 主 库 完 全 失 
效 ， 依 然 能 够 获得 它 的 二 进 制 日 志 。 也 可 以 设置 一 个 日 志 服 务 器 ， 把 
备 库 指向 它 ， 然 后 让 所 有 备 库 赶 上 主 库 失效 的 点 。 这 使 得 提升 一 个 备 
库 为 新 的 主 库 没 那么 重要 ， 本 质 上 这 和 计划 中 的 提升 是 相同 的 。 我 们 
将 在 下 一 章 进一步 讨论 这 些 存储 选项 。 


-E 提升 一 台 备 库 为 主 库 时 ， 千 万 不 要 将 它 的 服务 器 证 修 改 成 原 主 库 的 服务 器 


ID， 否 则 将 不 能 使 用 日 志 服务 器 从 一 个 旧 主 库 来 重 放 日 志 事件 。 这 也 是 确保 服务 器 ID 最 好 保 
持 不 变 的 原因 之 一 。 


10.6.6 ”在 一 个 主 - 主 配置 中 交换 角色 


主 - 主 复制 拓扑 结构 的 一 个 好 处 就 是 可 以 很 容易 地 切换 主动 和 被 动 
的 角色 ， 因 为 其 配置 是 对 称 的 。 本 小 节 介绍 如 何 完成 这 种 切换 。 


当 在 主 - 主 配 置 下 切换 角色 时 ， 必 须 确保 任何 时 候 只 有 一 个 服务 器 
可 以 写 入 。 如 果 两 台 服 务 器 交叉 写 入 ， 可 能 会 导致 写 入 冲突 。 换 句 话 
说 ， 在 切换 角色 后 ， 原 被 动 服 务 器 不 应 该 接收 到 主动 服务 器 的 任何 二 
进 制 日 志 。 可 以 通过 确保 原 被 动 服务 器 的 复制 SQL 线 程 在 该 服务 器 可 
写 之 前 已 经 赶 上 主动 服务 器 来 避免 。 


通过 以 下 步骤 切换 服务 器 角色 ， 可 以 避免 更 新 冲突 的 危险 : 


1. 停止 主动 服务 器 上 的 所 有 写 入 。 
2. 在 主动 服务 器 上 执行 SET GLOBAL read_only=1， 同 时 在 配置 文件 
里 也 设置 一 下 read_only， 防 止 重启 后 失效 。 但 记 住 这 不 会 阻止 拥 


有 超级 权限 的 用 户 更 改 数据 。 如 果 想 阻止 所 有 人 更 改 数据 ， 可 以 
执行 ELUSH TABLES WITH READ LOCK。 如 果 没 有 这 么 做 ， 你 
必须 kill 所 有 的 客户 端 连接 以 保证 没有 长 时 间 运 行 的 语句 或 者 未 提 


交 的 事务 。 

3. 在 主动 服务 器 上 执行 SHOW MASTER STATUS 并 记录 二 进 制 日 志 
坐标 。 

4. 使 用 主动 服务 器 上 的 二 进 制 日 志 坐 标 在 被 动 服务 器 上 执行 


SELECT MASTER_POS_WAITO。 该 语句 将 阻塞 住 ， 直 到 复制 跟 
上 主动 服务 器 。 

在 被 动 服务 器 上 执行 SET GLOBAL read_only=0， 这 样 就 变换 成 主 
动 服 务 器 。 

6. 修改 应 用 的 配置 ， 使 其 写 入 到 新 的 主动 服务 器 中 。 


ak 


可 能 还 需要 做 一 些 额外 的 工作 ， 包 括 更 改 两 台 服 务 器 的 IP 地 址 ， 
这 取决 于 应 用 的 配置 ， 我 们 将 在 下 一 节 讨论 这 个 话题 。 


10.7 复制 的 问题 和 解决 方案 


T T lala 因为 实现 简单 ， 配 置 相当 容 
易 ， 但 也 意味 着 有 很 多 方式 会 导致 复制 停止 ， 陷 入 混乱 并 中 断 。 本 章 
首 述 了 一 些 比较 普 SKE, 讨论 如 何 重 现 这 些 问 题 ， 以 及 当 遇 到 这 
些 问题 时 如 何 解 决 或 者 阻止 其 发 生 。 


10.7.1 ”数据 损坏 或 丢失 的 错误 


由 于 各 种 各 样 的 原因 ，MySQL 的 复制 并 不 能 很 好 地 从 服务 器 骨 
溃 、 挤 电 、 磁 盘 损坏 、 内 存 或 网 络 错误 中 恢复 。 遇 到 这 些 问 题 时 几乎 
可 以 肯定 都 需要 从 某 个 点 开始 重启 复制 。 


大 部 分 由 于 非 正常 天 机 后 导致 的 复制 问题 都 是 由 于 没有 把 数据 及 
时 地 刷 到 磁盘 。 下 面 是 意外 关闭 服务 器 时 可 能 会 磁 到 的 情况 。 


主 库 意 外 关闭 


如 果 没 有 设置 主 库 的 sync_binlog 选 项 ， 就 可 能 在 月 演 前 没有 
将 最 后 的 几 个 二 进 制 日 志 事件 刷新 到 磁盘 中 。 备 库 MO 线 程 因此 也 
可 一 直 处 于 读 不 到 尚未 写 入 磁盘 的 事件 的 状态 中 。 当 主 库 重新 启 
动 时 ， 备 库 将 重 连 到 主 库 并 再次 尝试 去 读 该 事件 ， 但 主 库 会 告 i 
备 库 没 有 这 个 二 进 制 日 志 偏 移 量 。 二 进 制 日 志 转 储 线程 通常 很 
快 ， 因 此 这 种 情况 并 不 经 常 发 生 。 


解决 这 个 问题 的 方法 是 指定 备 库 从 下 一 个 二 进 制 日 志 的 开头 
读 日 志 。 但 是 一 些 日 志 事 件 将 永久 地 丢失 ， 建 议 使 用 Percona 
Toolkit 中 的 pt-table-checksum 工 具 来 检查 主 备 一 致 性 ， 以 便于 修 
复 。 可 以 通过 在 主 库 开启 sync_binlog 来 避免 事件 丢失 。 


即使 开启 了 sync_binlog，MyISAM 表 的 数据 仍然 可 能 在 骨 溃 
的 时 候 损 坏 ， 对 于 InnoDB Ss FS, 如果 
innodb_flush_log_at_trx_commit 没 有 设 为 1， 也 可 能 丢失 数据 (但 
数据 不 会 损坏 ) 。 


备 库 意外 关闭 


当 备 库 在 一 次 非 计 划 中 的 关闭 后 重 局 时 ， 会 去 读 masterinjo 文 
件 以 找到 上 次 停止 复制 的 位 置 。 不 幸 的 是 ， 该 文件 并 没有 同步 写 
到 磁盘 ， 文 件 中 存储 的 信息 可 能 是 错误 的 。 备 库 可 能 会 尝试 重新 
执行 一 些 二 进 制 日 志 事 件 ， 这 可 能 会 导致 唯一 索引 错误 。 除 非 能 
确定 备 库 在 哪里 停止 〈 通 常 不 太 可 能 ) ， 否 则 唯一 的 办 法 就 是 忽 
略 那 些 错 误 。Percona Toolkit 中 的 pt-slave-restart 工 具 可 以 帮助 完成 
= 


如 果 使 用 的 都 是 InnoDB 表 ， 可 以 在 重启 后 观察 MySQL 错 误 日 
志 。InnoDB 在 恢复 过 程 中 会 打印 出 它 的 恢复 点 的 二 进 制 日 志 4 
标 。 可 以 使 用 这 个 值 来 决定 备 库 指向 主 库 的 偏 移 量 。Percona 
Server 提 供 了 一 个 新 的 特性 ， 可 以 在 恢复 的 过 程 中 自动 将 这 些 信 
息 提 取出 来 ， 并 更 新 master.info 文 件 ， 从 根本 上 使 得 复制 能 够 协调 
好 备 库 上 的 事务 。MySQL 5.5 也 提供 了 一 些 选 项 来 控制 如 何 将 
master.info 和 其 他 文件 刷新 到 磁盘 ， 这 有 助 于 减少 这 些 问 题 。 


除了 由 于 MySQL 非 正常 关闭 导致 的 数据 丢失 外 ， 磁 盘 上 的 二 进 制 
日 志 或 中 继 日 志文 件 损坏 并 不 罕见 。 下 面 是 一 些 更 普遍 的 场景 : 


主 库 上 的 二 进 制 日 志 损 坏 


如 果 主 库 上 的 二 进 制 日 志 损 坏 ， 除 了 忽略 损坏 的 位 置 外 你 别 
无 选择 。 可 以 在 主 库 上 执行 FLUSHLOGS 命 令 ， 这 样 主 库 会 开始 
一 个 新 的 日 志文 件 ， 然 后 将 备 库 指 向 该 文件 的 开始 位 置 。 也 可 以 
试 着 去 发 现 损坏 区 域 的 结束 位 置 。 某 些 情况 下 可 以 通过 SET 
GLOBAL SQL_SLAVE_SKIP_COUNTER = 1 来 忽略 一 个 损坏 的 事 
件 。 如 果 有 多 个 损坏 的 事件 ， 就 需要 重复 该 步骤， 直到 跳 过 所 有 
损坏 的 事件 。 但 如 果 有 太 多 的 损坏 事件 ， 这 么 做 可 能 就 没有 意义 


了 。 损 坏 的 事件 头 会 阻止 服务 器 找到 下 一 个 事件 。 这 种 情况 下 ， 
可 能 不 得 不 手动 地 去 找到 下 一 个 完好 的 事件 。 


备 库 上 的 中 继 日 志 损 坏 


如 果 主 库 上 的 日 志 是 完好 的 ， 就 可 以 通过 CHANGE MASTER 
TO 命令 丢弃 并 重新 获取 损坏 的 事件 。 只 需要 将 备 库 指向 它 当 前 正 
在 复制 的 位 置 (Relay_Master_Log_File/Exec_Master_Log_Pos) o 
这 会 导致 备 库 丢弃 所 有 在 磁盘 上 的 中 继 日 志 。 就 这 一 点 而 言 ， 
MySQL 5.5 做 了 一 些 改进 ， 它 能 够 在 朋 演 后 自动 重新 获取 中 继 日 


= 
/NO 


二 进 制 日 志 与 InnoDB 事 务 日 志 不 同步 


当主 库 朋 溃 时 ，InnoDB 可 能 将 一 个 事务 标记 为 已 提交 ， 此 时 
该 事务 可 能 还 没有 记录 到 二 进 制 日 志 中 。 除 非 是 某 个 备 库 的 中 继 
日 志 已 经 保存 ， 否 则 没有 任何 办 法 恢复 丢失 的 事务 。 在 MySQL 
5.0 版 本 可 以 设置 sync_binlog 选 项 来 防止 该 问题 ， 对 于 更 早 的 
MySQL 4.1 可 以 设置 sync_binlog 和 safe_binlog 选 项 。 


当 一 个 二 进 制 日 志 损 坏 时 ， 能 恢复 多 少数 据 取决 于 损坏 的 类 型 ， 
有 几 种 比较 单 见 的 类 型 : 


数据 改变 ， 但 事件 仍 是 有 效 的 SQL 


不 季 的 是 ，MySQL 甚 至 无 法 察觉 这 种 损坏 。 因 此 最 好 还 是 经 
检查 备 库 的 数据 是 否 正确 。 在 MySQL 未 来 的 版 本 中 可 能 会 被 修 


o 


kit 得 


效 据 改变 并 且 事件 是 无 效 的 SQL 


这 种 情况 可 以 通过 mysglbinlog 提 取出 事件 并 看 到 一 些 错乱 的 
数据 ， 例 如 : 


可 以 通过 增加 偏 移 量 的 方式 来 尝试 找到 下 一 个 事件 ， 这 样 就 
可 以 只 忽略 这 个 损坏 的 事件 。 


数据 丰 漏 并 且 / 或 者 事件 的 长 度 是 错误 的 


这 种 情况 下 ，mysqlbinlog 可 能 会 发 生 错 误 退 出 或 者 直接 月 
溃 ， 因 为 它 无 法 读 取 事 件 ， 并 且 找 不 到 下 一 个 事件 的 开始 位 置 。 
某 些 事件 已 经 损坏 或 被 覆盖 ， 或 者 偶 移 量 已 经 改变 并 且 下 一 个 
事件 的 起 始 偏 移 量 也 是 错误 的 
同样 的 ， 这 种 情况 下 mysgqlbinlog 也 起 不 了 多 少 作 用 。 
当 损 坏 非常 严重 ， 通 过 mysglbinlog 已 经 无 法 获取 日 志 事 件 时 ， 就 
不 得 不 进行 一 些 十 六 进 制 的 编辑 或 者 通过 一 些 烦琐 的 技术 来 找到 日 志 


事件 的 边界 。 这 通常 并 不 困难 ， 因 为 有 一 些 可 辨识 的 标记 会 分 割 事 
件 。 


如 下 例 所 示 ， 首 先 使 用 mysqlbinlog 找 到 样 例 日 志 的 日 志 事 件 偏 移 


=E 
=. 


$ mysqlbinlog mysql-bin.000113 | egrep '^# at ' 


# 
# 
# 
# 
# 
# 


at 


at 


at 


at 


at 


at 


4 


98 


185 


277 


369 


447 


一 个 找到 日 志 偏 移 量 的 比较 简单 的 方法 是 比较 一 下 string 命 令 输 出 
的 偏 移 量 : 


$ strings -n 2 -t d mysql-bin.000113 


1 
25 
99 
146 
156 
161 
186 
233 
243 
248 
278 
325 
335 


binpC'G 
5.0.38-Ubuntu_Qubuntu1.1-log 
C'G 

std 

test 

create table test(a int) 

C'G 

std 

test 

insert into test(a) values(1) 
C'G 

std 


test 


340 insert into test(a) values(2) 
370 C'G 

417 std 

427 test 

432 drop table test 

448 D'G 


474 mysgql-bin.000114 


有 一 些 可 辨别 的 模式 可 以 帮助 定位 事件 的 开头 ， 注 意 以 'G 结 尾 的 
字符 串 在 日 志 事件 开头 的 一 个 字 节 后 的 位 置 。 它 们 是 固定 长 度 的 事件 
头 的 一 部 分 。 


这 些 值 因 服务 器 而 异 ， 因 此 结果 也 可 能 取决 于 解析 的 日 志 所 在 的 
服务 器 。 简 单 地 分 析 后 应 该 能 够 从 二 进 制 日 志 中 找到 这 些 模式 并 找到 
下 一 个 完整 的 日 志 事 件 偏 移 量 。 然 后 通过 mysqlbinlog 的 --start-position 
选项 来 跳 过 损坏 的 事件 ， 或 者 使 用 CHANGE MASTER TO 命令 的 
MASTER_LOG_POS 参 数 。 


10.7.2 ”使 用 非 事务 型 表 


如 果 一 切 正常 ， 基 于 语句 的 复制 通 剃 能够 很 好 地 处 理 非 事务 型 
表 。 但 是 当 对 非 事务 型 表 的 更 新 发 生 错误 时 ， 例 如 查询 在 完成 前 被 
kil， 就 可 能 导致 主 库 和 备 库 的 数据 不 一 致 。 


例如 ， 假 设 更 新 一 个 MyISAM 表 的 100 行 数据 ， 若 查询 更 新 到 了 其 
中 50 条 时 有 人 kill 该 查询 ， 会 发 生 什么 呢 ? 一 半 的 数据 改变 了 ， 而 另 一 
半 则 没有 ， 结 果 是 复制 必然 不 同步 ， 因 为 该 查询 会 在 备 库 重 放 并 更 新 


完 100 行 数据 (MySQL 随 后 会 在 主 库 上 发 现 查 询 引 起 的 错误 ， 而 备 库 
上 则 没有 报错 ， 此 后 复制 将 会 发 生 错误 并 中 断 ) o 


如 果 使 用 的 是 MyI SAM 表 ， 在 关闭 MySQL 之 前 需要 确保 已 经 运行 
了 STOP SLAVE， 否 则 服务 器 在 关闭 时 会 kil 所 有 正在 运行 的 查询 ( 包 
括 没 有 完成 的 更 新 ) 。 事 务 型 存储 引擎 则 没有 这 个 问题 。 如 果 使 用 的 
是 事务 型 表 ， 失 败 的 更 新 会 在 主 库 上 回 滚 并 且 不 会 记录 到 二 进 制 日 志 
中 。 


10.73 ”混合 事务 型 和 非 事务 型 表 


如 果 使 用 的 是 事务 型 存储 引擎 ， 只 有 在 事务 提交 后 才 会 将 查询 记 
录 到 二 进 制 日 志 中 。 因 此 如 果 事 务 回 滚 ，MySQL 就 不 会 记录 这 条 碍 
询 ， 也 就 不 会 在 备 库 上 重 放 。 


但 是 如 果 混 合 使 用 事务 型 和 非 事 务 型 表 ， 并 且 发 生 了 一 次 回 滚 ， 
MySQL 能 够 回 滚 事务 型 表 的 更 新 ， 但 非 事 务 型 表 则 被 永久 地 更 新 了 。 
只 要 不 发 生 类 似 查询 中 途 被 ki 这 样 的 错误 ， 这 就 不 是 问题 : MySQL 
此 时 会 记录 该 查询 并 记录 一 条 ROLLBACK 语 名 到 日 志 中 。 结 果 是 同样 
的 语句 也 在 备 库 执行 ， 所 有 的 都 很 正常 。 这 样 效率 会 低 一 点 ， 因 为 备 
库 需 要 做 一 些 工 作 并 且 最 后 再 把 它们 丢弃 掉 。 但 理论 上 能 够 保证 主 备 
的 数据 一 致 。 


目前 看 来 一 切 很 正常 。 但 是 如 果 备 库 发 生死 锁 而 主 库 没有 也 可 能 
会 导致 问题 。 事 务 型 表 的 更 新 会 被 回 滚 ， 而 非 事务 型 表 则 无 法 回 滚 ， 
此 时 备 库 和 主 库 的 数据 是 不 一 致 的 。 


防止 该 问题 的 唯一 办 法 是 避免 混合 使 用 事务 型 和 非 事 务 型 表 。 如 
果 遇 到 这 个 问题 ， 唯 一 的 解决 办 法 是 忽略 错误 ， 并 重新 同步 相关 的 
表 。 


基于 行 的 复制 不 会 受 这 个 问题 的 影响 。 因 为 它 记 录 的 是 数据 的 更 
改 ， 而 不 是 SQL 语句 。 如 果 一 条 语句 改变 了 一 个 MyISAM 表 和 一 个 
InnoDB 表 的 某 些 行 ， 然 后 主 库 上 发 生 了 一 次 死 锁 ，InnoDB 表 的 更 新 会 
被 回 深 ， 而 MyISAM 表 的 更 新 仍 会 被 记录 到 日 志 中 并 在 备 库 重 放 。 


10.7.4 不 确定 语句 


当 使 用 基于 语句 的 复制 模式 时 ， 如 果 通 过 不 确定 的 方式 更 改 数据 
可 能 会 导致 主 备 不 一 致 。 例 如 ， 一 条 审 LIMIT 的 UPDATE 语 句 更 改 的 
数据 取决 于 查找 行 的 顺序 ， 除 非 能 保证 主 库 和 备 库 上 的 顺序 相同 。 例 
如 ， 和 若 行 根据 主键 排序 ， 一 条 查询 可 能 在 主 库 和 备 库 上 更 新 不 同 的 
行 ， 这 些 问题 非常 微妙 并 且 很 难 注意 到 。 所 以 一 些 人 禁止 对 那些 会 更 
新 数据 的 语句 使 用 LIMIT。 另 外 一 种 不 确定 的 行为 是 在 一 个 拥有 多 个 
唯一 索引 的 表 上 使 用 REPLACE 或 者 INSERT IGNORE 语 句 一 MySQL 
在 主 库 和 备 库 上 可 能 会 选择 不 同 的 索引 。 


另外 还 要 注意 那些 涉及 INFORMATION_SCHEMA 表 的 语句 。 它 
们 很 容易 在 主 库 和 备 库 上 产生 不 一 致 ， 其 结果 也 会 不 同 。 最 后 ， 需 要 
注意 许多 系统 变量 ,例如 @@server_id 和 @@hostname， 在 MySQL 5.1 
之 前 无 法 正确 地 复制 。 


基于 行 的 复制 则 没有 上 述 限制 。 


主 库 和 备 库 使 用 不 同 的 存储 引 


正如 本 章 之 前 提 到 的 ， 在 备 库 上 使 用 不 同 的 存储 引擎 ， 有 时 候 可 
以 融 来 好 处 。 但 是 在 一 些 场景 下 ， 当 使 用 基于 语句 的 复制 方式 时 ， 如 
果 备 库 使 用 了 不 同 的 存储 引擎 ， 则 可 能 造成 一 条 碍 询 在 主 库 和 备 库 上 
的 执行 结果 不 同 ， 例 如 不 确定 语句 (如 前 一 小 节 提 到 的 ) 在 主 备 库 使 
用 不 同 的 存储 引擎 时 更 容易 导致 问题 。 


如 果 发 现 主 库 和 备 库 的 某 些 表 已 经 不 同步 ， 除 了 检查 更 新 这 些 表 
的 查询 外 ， 还 需要 检查 两 台 服 务 器 上 使 用 的 存储 引擎 是 否 相 同 。 


10.76 ” 备 库 发 生 数 据 改变 


基于 语句 的 复制 方式 前 提 是 确保 备 库 上 有 和 主 库 相 同 的 数据 ， 
此 不 应 该 允许 对 备 库 数 据 的 任何 更 改 (比较 好 的 办 法 是 设置 read_only 
选项 ) 。 假 设 有 如 下 语句 : 


mysql> INSERT INTO table1 SELECT * FROM table2; 


如 果 备 库 上 table2 的 数据 和 主 库 上 不 同 ， 该 语句 会 导致 tablel 的 数 
据 也 会 不 一 致 。 换 名 话说 ， 数 据 不 一 致 可 能 会 在 表 之 间 传 播 。 不 仅仅 
是 INSERT.….SELECT 碍 询 ， 所 有 类 型 的 查询 都 可 能 发 生 。 有 两 种 可 能 
的 结果 : 备 库 上 发 生 重 复 索 引 键 冲突 错误 或 者 根本 不 提示 任何 错误 。 


如 果 能 报告 钳 误 还 好 ， 起 码 能 够 提示 你 主 备 效 据 已 经 不 一 致 。 无 法 察 
觉 的 不 一 致 可 能 会 悄 无 声息 地 导致 各 种 严重 的 问题 。 


唯一 的 解决 办 法 就 是 重新 从 主 库 同步 数据 。 


10.7.7 不 唯一 的 服务 器 ID 


这 种 间 题 更 加 难以 捉摸 。 如 果 不 小 心 为 两 人 台 备 库 设置 了 相同 的 服 
务 器 ID， 看 起 来 似乎 没有 什么 问题 ， 但 如 果 查 看 错误 日 志 ， 或 者 使 用 
innotop 查 看 主 库 ， 可 能 会 看 到 一 些 古怪 的 信息 。 


在 主 库 上 ， 会 发 现 两 台 备 库 中 只 有 一 台 连 接 到 主 库 (通常 情况 下 
所 有 的 备 库 都 会 建立 连接 以 等 待 随时 进行 复制 ) 。 在 备 库 的 错误 日 志 
中 ， 则 会 发 现 反复 的 重 连 和 连接 断 开 信息 ， 但 不 会 提 太 被 错误 配置 的 
服务 器 ID。 


MySQL 可 能 会 缓慢 地 进行 正确 的 复制 ， 也 可 能 无 法 进行 正确 复 
制 ， 这 取决 于 MySQL 的 版 本 ， 给 定 的 备 库 可 能 会 丢失 二 进 制 日 志 
件 ， 或 者 重复 执行 事件 ， 导 致 重复 键 错误 (或 者 不 可 见 的 数据 损 
坏 ) 。 也 可 能 因为 备 库 的 互相 竞争 造成 主 库 的 负载 升 高 。 如 果 备 库 竞 
争 非常 激 烈 ， 会 导致 销 误 日 志 在 很 短 的 时 间 内 急剧 增 大 。 


唯一 的 解决 办 法 是 小 心 设 置 备 库 的 服务 器 ID。 一 个 比较 好 的 办 法 
是 创建 一 个 主 库 到 备 库 的 服务 器 ID 映射 表 ， 这 样 融 可 以 跟踪 到 备 库 的 
DD 信息 (9。 如 果 备 库 全 在 一 个 子 网 络 内 ， 可 以 将 每 台 机 器 人 P 的 后 八 位 
作为 唯一 ID。 


10.7.8 ”未 定义 的 服务 器 ID 


如 果 没 有 在 my.cnf 里 定义 服务 器 ID， 可 以 通过 CHANGE MASTER 
TO 来 设置 备 库 ， 但 却 无 法 启动 复制 : 


mysql> START SLAVE; 
ERROR 1200 (HY000): The server is not configured as slave; 
fix in config file or with 


CHANGE MASTER TO 


这 个 报错 可 能 会 让 人 困惑 ， 因 为 刚刚 执行 CHANGE MASTER TO 
设置 了 备 库 ， 并 且 通 过 SHOW MASTER STATUS 也 确认 了 。 执 行 
SELECT @G@server id 也 可 以 获得 一 个 值 ， 但 这 只 是 默认 值 ， 必 须 为 备 
库 显 式 地 设置 服务 器 ID。 


10.7.9 ”对 未 复制 数据 的 依赖 性 


如 果 在 主 库 上 有 备 库 不 存在 的 数据 库 或 表 ， 复 制 会 很 容易 意外 中 
断 ， 反 之 亦 然 。 假 设 主 库 上 有 一 个 备 库 不 存在 的 数据 库 ， 命 名 为 
scratch。 如 果 在 主 库 上 发 生 对 该 数据 库 中 表 的 更 新 ， 备 库 会 在 尝试 重 
放 这 些 更 新 时 中 断 。 同 样 的， 如 果 在 主 库 上 创建 一 个 备 库 上 已 存在 的 
表 ， 复 制 也 可 能 中 断 。 


没有 什么 好 的 解决 办 法 ， 唯 一 的 办 法 融 是 避免 在 主 库 上 创建 备 库 
ERAN Ro 


这 样 的 表 是 如 何 创建 的 呢 ? 有 很 多 可 能 的 方式 ， 其 中 一 些 可 能 
难 防 学。 例如 ， 假 设 先 在 备 库 上 创建 一 个 数据 库 scratch， 该 数据 库 在 
主 库 上 不 存在 ， 然 后 因为 某 些 原因 切换 了 主 备 。 当 完成 这 些 后 ， 可 能 
忘记 了 移 除 scratch 数 据 库 以 及 它 的 权限 。 这 时 候 一 些 人 就 可 以 连接 到 
该 数据 库 并 执行 一 些 查 询 ， 或 者 一 些 定期 的 任务 会 发 现 这 些 表 ， 并 在 
每 个 表 上 执行 OPTIMIZE TABLE 命 令 。 


当 提 升 备 库 为 主 库 时 ， 或 者 决定 如 何 配置 备 库 时 ， 需 要 注意 这 一 
点。 任何 导致 主 备 不 同 的 行为 都 会 产生 潜在 的 问题 。 


10.7.10 ”丢失 的 临时 表 


临时 表 在 某 些 时 候 比 较 有 用 ， 但 不 季 的 是 ， 它 与 基于 语句 的 复制 
方式 是 不 相 容 的 。 如 果 备 库 朋 溃 或 者 正常 关闭 ， 任 何 复制 线程 拥有 的 
临时 表 都 会 丢失 。 重 局 备 库 后 ， 所 有 依赖 于 该 临时 表 的 语句 都 会 失 
败 。 


当 基 于 语句 进行 复制 时 ， 在 主 库 上 并 没有 安全 使 用 临时 表 的 方 
法 。 许 多 人 确实 很 喜欢 临时 表 ， 所 以 很 难 去 说 服 他 们 ， 但 这 是 不 可 否 
认 的 久 )。 不 管 它们 的 存在 多 么 短暂 ， 都 会 使 得 备 库 的 启动 和 停止 以 及 
崩溃 恢复 变 得 困难 ， 即 使 是 在 一 个 事务 内 使 用 也 一 样 。 (如 果 在 备 库 
使 用 临时 表 可 能 问题 会 少 些 ， 但 如 果 备 库 本 身 也 是 一 个 主 库 ， 问 题 依 
然 存在 。 ) 


如 果 备 库 重 启 后 复制 因 找 不 到 临时 表 而 停止 ， 可 能 需要 做 以 下 一 
些 事情 : 可 以 直接 跳 过 错误 ， 或 者 手动 地 创建 一 个 名 字 和 结构 相同 的 


表 来 代 蔡 消失 的 临时 表 。 不 管用 什么 办 法 ， 如 果 写 入 查询 依赖 于 临时 
表 ， 都 可 能 造成 数据 不 一 致 。 


避免 使 用 临时 表 没 有 看 起 来 那么 难 ， 临 时 表 主 要 有 两 个 比较 有 用 
的 特性 : 


。 只 对 创建 临时 表 的 连接 可 见 。 所 以 不 会 和 其 他 拥有 相同 名 字 临 时 
表 的 连接 起 冲突 。 
。 随 着 连接 关闭 而 消失 ， 所 以 无 须 显 式 地 移 除 它们 。 


可 以 保留 一 个 专用 的 数据 库 ， 在 其 中 创建 持久 表 ， 把 它们 作为 伪 
临时 表 ， 以 模拟 这 些 特性 。 只 需要 为 它们 选择 一 个 唯一 的 名 字 。 还 好 
这 很 容易 做 到 : 简单 地 将 连接 ID 拼 接 到 表 名 之 后 。 例 如 ， 之 前 创建 临 
时 表 的 语句 为 : CREATE TEMPORARY TABLE top_users(...)， 现 在 则 
可 以 执行 CREATE TABLE temp.top_users_1234(...) ， 其 中 1234 是 函数 
CONNECTION_ID0O 的 返回 值 。 当 应 用 不 再 使 用 该 伪 临 时 表 后 ， 可 以 
将 其 删除 或 使 用 一 个 清理 线程 来 将 其 移 除 。 表 名 中 使 用 连接 ID 可 以 用 
于 确定 哪些 表 不 再 被 使 用 可 以 通过 SHOW PROCESSLIST 命 令 来 
获得 活跃 连接 列表 ， 并 将 其 与 表 名 中 的 连接 ID 相 比较 名 )。 


使 用 实体 表 而 非 临时 表 还 有 别 的 好 处 。 例 如 ， 能 够 帮助 你 更 容易 
调试 应 用 程序 ， 因 为 可 以 通过 别 的 连接 来 查看 应 用 正在 维护 的 数据 。 
如 果 使 用 的 是 临时 表 ， 可 能 就 没 这 么 容易 做 到 。 


但 是 实体 表 可 能 会 比 临 时 表 多 一 些 开 销 ， 例 如 创建 会 更 慢 ， 因 为 
为 这 些 表 分 配 的 .frm 文 件 需要 刷新 到 磁盘 。 可 以 通过 禁止 sync_frm 选 项 
来 加 速 ， 但 这 可 能 会 导致 潜在 的 风险 。 


如 果 确 实 需 要 使 用 临时 表 ， 也 应 该 在 关闭 备 库 前 确保 
Slave_open_temp _tables 状 态 变量 值 为 0。 如 果 不 是 0， 在 重启 备 库 后 就 
可 能 会 出 现 问题 。 合 适 的 流程 是 执行 STOP SLAVE ， 检 查 变量 ， 然 后 
再 关闭 备 库 。 如 果 在 停止 复制 前 检查 变量 ， 可 能 会 发 生 竞 争 条 件 的 风 


险 。 


10.7.11 不 复制 所 有 的 更 新 


如 果 错 误 地 使 用 SET SQL _ LOG _BIN=0 或 者 没有 理解 过 滤 规 则 ， 
备 库 可 能 会 丢失 主 库 上 已 经 发 生 的 更 新 。 有 时 候 希 望 利用 此 特性 来 做 
归档 ， 但 常常 会 导致 意外 并 出 现 不 好 的 结果 。 


例如 ， 假 设 设 置 了 replicate_do_db 规 则 ， 把 sakila 数 据 库 的 数据 复 
制 到 某 一 台 备 库 上 。 如 果 在 主 库 上 执行 如 下 语句 ， 会 导致 主 备 数据 不 
一 致 : 


mysql> USE test; 


mysql> UPDATE sakila.actor ... 


其 他 类 型 的 语句 甚至 会 因为 没有 复制 依赖 导致 备 库 复制 抛 出 错误 
而 失败 。 


10.7.12 ”InnoDB 加 锁 读 引起 的 锁 争 用 


正常 情况 下 ，InnoDB 的 读 操 作 是 非 阻 塞 的 ， 但 在 某 些 情况 下 需要 
加 锁 。 特 别 是 在 使 用 基于 语句 的 复制 方式 时 ， 执 行 INSERT...SELECT 
操作 会 锁定 源 表 上 的 所 有 行 。MySQL 需 要 加 锁 以 确保 该 语句 的 执行 结 
果 在 主 库 和 备 库 上 是 一 致 的 。 实 际 上 ， 加 锁 导 致 主 库 上 的 语句 串 行 
化 ， 以 确保 和 备 库 上 执行 的 方式 相符 。 


这 种 设计 可 能 导致 锁 竞 争 、 阻 塞 ， 以 及 锁 等 待 超时 等 情况 。 一 种 
缓解 的 办 法 就 是 避免 让 事务 开启 太 久 以 减少 阻塞 。 可 以 在 主 库 上 尽快 
地 提交 事务 以 释放 锁 。 


把 大 命令 拆 分 成 小 命令 ， 使 其 尽 可 能 简短 。 这 也 是 一 种 减少 锁 竞 
争 的 有 效 方法 。 即 使 有 时 很 难 做 到 ， 但 也 是 值得 的 〈 使 用 Percona 
Toolkit 中 的 pt-archiver 工 具 会 很 简单 ) 。 


另 一 种 方法 是 替换 掉 INSERT..SELECT 语 句 ， 在 主 库 上 先 执行 
SELECT INTO OUTEFILE ， 再 执行 LOAD DATA INFILE。 这 种 方法 更 
快 ， 并 且 不 需要 加 锁 。 这 种 方法 很 特殊 ， 但 有 时 还 是 有 用 的 。 最 大 的 
问题 是 为 输出 文件 选择 一 个 唯一 的 名 字 ， 并 在 完成 后 清理 掉 文 件 。 可 
以 通过 之 前 讨论 过 的 CONNECTION_IDO 来 保证 文件 名 的 唯一 性 ， 并 
且 可 以 使 用 定时 任务 (UNIX 的 crontab ，Windows 平 台 的 计划 任务 ) 在 
连接 不 再 使 用 这 些 文 件 后 进行 自动 清理 。 


也 可 以 尝试 关闭 上 面 的 这 种 锁 机 制 ， 而 不 是 使 用 上 面 的 变通 方 
法 。 有 一 种 方法 可 以 做 到 ， 但 在 大 多 数 场景 下 并 不 是 好 办 法 ， 备 库 可 
能 会 在 不 知 不 觉 间 就 失去 和 主 库 的 数据 同步 。 这 也 会 导致 在 做 恢复 时 
二 进 制 日 志 变 得 室 无 用 处 。 但 如 果 确 实 觉 得 这 么 做 的 利 大 于 弊 ， 可 以 
使 用 下 面 的 办 法 来 关闭 这 种 锁 机 制 


# THIS IS NOT SAFE! 


innodb_locks_unsafe_for_binlog = 1 


这 使 得 查询 的 结果 所 依赖 的 数据 不 再 加 锁 。 如 果 第 二 条 碍 询 修改 
了 数据 并 在 第 一 条 查询 之 前 先 提 交 。 在 主 库 和 备 库 上 执行 这 两 条 语句 
的 结果 可 能 不 相同 。 对 于 复制 和 基于 时 间 总 的 恢复 都 是 如 此 。 


为 了 了 解锁 定 读 取 是 如 何 防止 混乱 的 ， 假 设 有 两 张 表 : 一 个 没有 
数据 ， 另 一 个 只 有 一 行 数据 ， 值 为 99。 有 两 个 事务 更 新 数据 。 事 务 1 将 
第 二 张 表 的 数据 插入 到 第 一 张 表 ， 事 务 2 更 新 第 二 张 表 GRR) ， 如 图 
10-16 所 示 。 
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图 10-16: 两 个 事务 更 新 数据 ， 使 用 共享 锁 串 行 化 更 新 


第 二 步 非常 重要 ， 事 务 2 尝试 去 更 新 产 表 ， 这 需要 在 更 新 的 行 上 加 
排他 锁 (Sit) 。 排 他 锁 与 其 他 锁 是 不 相 容 的 ， 包 括 事务 1 在 行 记 录 上 


加 的 共享 锁 。 因 此 事务 2 需要 等 待 直到 事务 1 完成 。 事 务 按 照 其 提交 的 
顺序 在 二 进 制 日 志 中 记录 ， 所 以 在 备 库 重 放 这 些 事务 时 产生 相同 的 结 
果 。 


但 从 另 一 方面 来 说 ， 如 果 事 务 1 没有 在 读 取 的 行 上 加 共享 锁 ， 就 无 
法 保证 了 。 图 10-17 显 示 了 在 没有 锁 的 情况 下 可 能 的 事件 序列 。 
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图 10-17: 两 个 事务 更 新 数据 ， 但 未 使 用 共享 锁 来 串 行 化 更 新 


如 果 没 有 加 锁 ， 记 录 在 日 志 中 的 事务 顺序 在 主 备 上 可 能 会 产生 不 
同 的 结果 。MySQL 会 先 记 录 事 务 2， 这 会 影响 到 事务 1 在 备 库 上 的 结 
果 ， 而 主 库 上 则 不 会 发 生 ， 从 而 导致 了 主 备 的 数据 不 一 致 。 


我 们 强烈 建议 在 大 多 数 情 况 下 将 innodb_locks_unsafe_for_binlog 的 
值 设 置 为 0。 基 于 行 的 复制 由 于 记录 了 数据 的 变化 而 非 语 句 ， 因 此 不 会 
存在 这 个 问题 。 


10.7.13 ”在 主 - 主 复制 结构 中 写 入 两 台 
主 库 


试图 向 两 台 主 库 写 入 并 不 是 一 个 好 主意 。 如 果 同 时 还 希望 安全 地 
与 入 两 台 主 库 ， 会 而 到 很 多 问题 ， 有 些 问题 可 以 解决 ， 有 些 则 很 难 。 
一 个 专业 人 员 可 能 需要 经 历 大 量 的 教训 才能 明日 其 中 的 不 同 。 


在 MySQL 5.0 中 ， 有 两 个 变量 可 以 用 于 帮助 解决 
AUTO_INCREMENT 自 增 主 键 冲突 的 问题 : auto_increment_increment 
和 auto_increment_offset。 可 以 通过 设置 这 两 个 变量 来 错开 主 库 和 备 库 
生成 的 数字 ， 这 样 可 以 避免 自 增 列 的 冲突 。 


但 是 这 并 不 能 解决 所 有 由 于 同时 写 入 两 台 主 库 所 带 来 的 问题 ;， 自 
增 问题 只 是 其 中 的 一 小 部 分 。 而 且 这 种 做 法 也 之 来 了 一 些 新 的 问题 : 


很 难 在 复制 拓扑 间 做 故障 转移 。 

由 于 在 数字 之 间 出 现 间隙 ， 会 引起 键 空间 的 浪费 。 

只 有 在 使 用 了 AUTO_INCREMENT 主 键 的 时 候 才 有 用 。 有 时 候 使 
用 AUTO_INCREMENT 列 作为 主键 并 不 总 是 好 主意 。 


你 也 可 以 自己 来 生成 不 冲突 的 主键 值 。 一 种 办 法 是 创建 一 个 多 个 
列 的 主键 ， 第 一 列 使 用 服务 器 ID 值 。 这 种 办 法 很 好 ， 但 却 使 得 主键 的 
值 变 得 更 大 ， 会 对 InnoDB 二 级 索引 键 值 产 生 多 重 影响 。 


也 可 以 使 用 只 有 一 列 的 主键 ， 在 主键 的 高 字 节 位 存储 服务 器 ID。 
简单 的 左 移 位 (除法 ) 和 加 法 就 可 以 实现 。 例 如 ， 使 用 的 是 无 符号 
BIGINT (64 位 ) 的 高 8 位 来 保存 服务 器 ID ， 可 以 按照 如 下 方法 在 服务 
器 15 上 插入 值 11: 


mysql> INSERT INTO test(pk_col, ...) VALUES((15 << 56) + 
st san)y 


如 果 想 把 结果 转换 为 二 进 制 ， 并 将 其 填充 为 64 位 ， 其 效果 显 而 易 


mysql> SELECT LPAD(CONV(pk_col, 10, 2), 64, '0') FROM test; 


+------------------------------------------------------------------+ 
+------------------------------------------------------------------+ 


二 -+ 


该 方法 的 缺点 是 需要 额外 的 方式 来 产生 键 值 ， 因 为 
AUTO_INCREMENT 无 法 做 到 这 一 点 。 不 要 在 INSERT 语 句 中 将 常量 15 
替换 为 @@server_id， 因 为 这 可 能 在 备 库 产生 不 同 的 结果 。 


还 可 以 使 用 MD50) 或 UUIDO 等 阅 数 来 获取 伪 随 机 数 ， 但 这 样 做 性 


能 可 能 会 很 差 ， 因 为 它们 产生 的 值 较 大 ， 并 且 本 质 上 是 随机 的 ， 这 尤 
其 会 影响 到 InnoDB (除非 是 在 应 用 中 产生 值 ， 否 则 不 要 使 用 UUID0O， 
因为 基于 语句 的 复制 模式 下 UUIDO 不 能 正确 复制 ) o 


这 个 问题 很 难 解决 ， 我 们 通常 推荐 重 构 应 用 程序 ， 以 保证 只 
个 主 库 是 可 写 的 。 谁 能 想得到 呢 ? 


10.7.14 ”过 大 的 复制 延迟 


复制 延迟 是 一 个 很 普遍 的 问题 。 不 管 怎 么 样 ， 最 好 在 设计 应 用 程 
能 


序 时 能 够 让 其 容忍 备 库 出 现 延 迟 。 如 果 系 统 在 备 库 出 现 延 迟 时 就 无 法 


很 好 地 工作 ， 那 么 应 用 程序 也 许 就 不 应 该 用 到 复制 。 但 是 也 有 一 些 办 
法 可 以 让 备 库 跟 上 主 库 。 


MySQL 单 线程 复制 的 设计 导致 备 库 的 效率 相当 低下 。 即 使 备 库 有 
很 多 磁盘 、CPU 或 者 内 存 ， 也 会 很 容易 落后 于 主 库 。 因 为 备 库 的 单线 
程 通常 只 会 有 效 地 使 用 一 个 CPU 和 磁盘 。 而 事实 上 ， 备 库 通 常 都 会 和 
主 库 使 用 相同 配置 的 机 器 。 


备 库 上 的 锁 同 样 也 是 问题 。 其 他 在 备 库 运 行 的 查询 可 能 会 阻塞 住 
复制 线程 。 因 为 复制 是 单线 程 的 ， 复 制 线程 在 等 待 时 将 无 法 做 别 的 事 
情 。 

复制 一 般 有 两 种 产生 延迟 的 方式 : 突然 产生 延迟 然后 再 跟 上 ， 或 
者 稳定 的 延迟 增 大 。 前 一 种 通常 是 由 于 一 条 运行 很 长 时 间 的 查询 导致 
的 ， 而 后 者 即使 在 没有 长 时 间 运 行 的 查询 时 也 会 出 现 。 


不 乎 的 是 ， 目 前 我 们 没 那么 容易 确定 备 库 是 否 接近 其 容量 上 限 。 
正如 之 前 提 到 的 。 如 果 负 载 总 是 保持 均匀 的 ， 备 库 在 负载 达到 99% 时 
和 其 负载 在 10% 的 时 候 表 现 的 性 能 相同 ， 但 一 旦 达到 100% 时 就 会 突然 
开始 产生 延迟 。 但 实际 上 负载 不 太 可 能 很 稳定 ， 所 以 当 备 库 接近 写 容 
量 时 ， 融 可 能 在 尖峰 负载 时 看 到 复制 延迟 的 增加 。 


当 备 库 无 法 跟 上 时 ， 可 以 记录 备 库 上 的 查询 并 使 用 一 个 日 志 分 析 
工具 找 出 哪里 慢 了 。 不 要 依赖 于 自己 的 直觉 ， 也 不 要 基于 查询 在 主 库 
上 的 查询 性 能 进行 判断 ， 因 为 主 库 和 备 库 性 能 特征 很 不 相同 。 最 好 的 
分 析 办 法 是 暂时 在 备 库 上 打开 慢 查 询 日 志 记 录 ， 然 后 使 用 第 3 章 讨 论 的 
pt-query-digest 工 具 来 分 析 。 如 果 打 开 了 log_slow_slave_statements 选 
项 ， 在 标准 的 MySQL 慢 查询 日 志 能 够 记录 MySQL 5.1 及 更 新 的 版 本 中 


复制 线程 执行 的 语句 ， 这 样 就 可 以 找到 在 复制 时 哪些 语句 执行 慢 了 。 
Percona Server 和 MariaDB 人 允许 开启 或 禁止 该 选项 而 无 须 重 启 服 务 器 。 


除了 购买 更 快 的 磁盘 和 CPU (固态 硬盘 能 够 提供 极 大 的 帮助 ， 详 
ASSIS) ， 备 库 没有 太 多 的 调 优 空间 。 大 部 分 选项 都 是 禁止 某 些 
额外 的 工作 以 减少 备 库 的 负载 。 一 个 简单 的 办 法 是 配置 InnoDB， 使 其 
不 要 那么 频繁 地 刷新 磁盘 ， 这 样 事务 会 提交 得 更 快 些 。 可 以 通过 设置 
innodb_flush_log_at_trx_commit 的 值 为 2 来 实现 。 还 可 以 在 备 库 上 茶 止 
二 进 制 日 志 记 录 ， 把 innodb_locks_unsafe_for_binlog 设 置 为 1， 并 把 
MyISAM 的 delay_key_write 设 置 为 ALL。 但 是 这 些 设置 以 牺牲 安全 换取 
速度 。 如 果 需 要 将 备 库 提升 为 主 库 ， 记 得 把 这 些 选 项 设置 回 安全 的 
值 。 


不 要 重复 写 操 作 中 代价 较 高 的 部 分 


重 构 应 用 程序 并 且 / 或 者 优化 查询 通常 是 最 好 的 保持 备 库 同步 的 办 
法 。 尝 试 去 最 小 化 系统 中 重复 的 工作 。 任 何 主 库 上 昂贵 的 写 操作 都 会 
在 每 一 个 备 库 上 重 放 。 如 果 可 以 把 工作 转移 到 备 库 ， 那 么 就 只 有 一 台 
备 库 需要 执行 ， 然 后 我 们 可 以 把 写 的 结果 回 传 到 主 库 ， 例 如 ， 通 过 执 
行 LOAD DATA INFILE。 


这 里 有 个 例子 ， 假 设 有 一 个 大 表 ， 需 要 汇总 到 一 个 小 表 中 用 于 日 
党 的 操作 : 


mysql> REPLACE INTO main_db.summary_table (coli, col2, ...) 


-> SELECT coli, sum(col2, ...) 


-> FROM main_db.enormous_table GROUP BY coli; 


如 果 在 主 库 上 执行 查询 ， 每 个 备 库 将 同样 需要 执行 庞大 的 GROUP 
BY 查询 。 当 进行 太 多 这 样 的 操作 时 ， 备 库 将 无 法 跟 上 。 把 这 些 工作 转 
移 到 一 台 备 库 上 也 许 会 有 帮助 。 在 备 库 上 创建 一 个 特别 保留 的 数据 
库 ， 用 于 避免 和 从 主 库 上 复制 的 数据 产生 冲突 。 可 以 执行 以 下 查询 : 


mysql> REPLACE INTO summary_db.summary_table (coli, col2, 


-> SELECT coli, sum(col2, ...) 


-> FROM main_db.enormous_table GROUP BY col1; 


现在 可 以 执行 SELECT INTO OUTFILE， 然 后 再 执行 LOAD DATA 
INFILE ， 将 结果 集 加 载 到 主 库 中 。 现 在 重复 工作 被 简化 为 LOAD 
DATA INFILE 操 作 。 如 果 有 NN 个 备 库 ， 就 节约 了 N-1 次 庞大 的 GROUP 
BY 操作 。 


该 策略 的 问题 是 需要 处 理 陈 旧 数 据 。 有 了 时候 从 备 库 读 取 的 数据 和 
写 入 主 库 的 数据 很 难保 持 一 致 〈 下 一 章 我 们 会 详细 描述 这 个 问题 ) 。 
如 果 难 以 在 备 库 上 读 取 数 据 ， 依 然 能 够 简化 并 节省 库 备 工作 。 如 果 分 
离 查询 的 REPLACE 和 SELECT 部 分 ， 就 可 以 把 结果 返回 给 应 用 程序 ， 
然后 将 其 插入 到 主 库 中 。 首 先 ， 在 主 库 执行 如 下 查询 : 


mysql> SELECT coli, sum(col2, ara) FROM 


main_db.enormous_table GROUP BY col1; 


然后 为 结果 集 的 每 一 行 重复 执行 如 下 语句 ， 将 结果 插入 到 汇总 表 
中 : 


mysql> REPLACE INTO main_db.summary_table (coli, col2, ...) 


VALUES (?, ?, ...); 


这 种 方法 再 次 避免 了 在 备 库 上 执行 查询 中 的 GROUP BY 部 分 。 将 
SELECT 和 REPLACE 分 离 后 意味 着 查询 的 SELECT 操作 不 会 在 每 一 台 
备 库 上 重 放 。 


这 种 通用 的 策略 一 一 节约 了 备 库 上 昂贵 的 写 入 操作 部 分 一 一 在 很 
多 情况 下 很 有 帮助 : 计算 查询 的 结果 代价 很 昂贵 ， 但 一 旦 计算 出 来 
后 ， 处 理 就 很 容易 。 


在 复制 之 外 并 行 写 入 


另 一 种 避免 备 库 严 重 延 迟 的 办 法 是 纤 过 复制 。 任 何在 主 库 的 写 入 
操作 必须 在 备 库 串 行 化 。 因 此 有 理由 认为 * 串 行 化 写 入 ”不 能 区 分 利用 
资产。 所 有 写 操 作 都 应 该 从 主 库 传递 到 备 库 吗 ?” 如 何 把 备 库 有 限 的 串 
行 写 入 容量 留 给 那些 真正 需要 通过 复制 进行 的 写 入 ? 


这 种 考虑 有 助 于 对 写 入 进行 区 分 。 特 别 是 ， 如 果 能 确定 一 些 写 入 
可 以 轻易 地 在 复制 之 外 执行 ， 就 可 以 并 行 化 这 些 操作 以 利用 备 库 的 写 
入 容量 。 


一 个 很 好 的 例子 是 之 前 讨论 过 的 数据 归档 。OLTP 归 档 需 求 通常 是 
简单 的 单行 操作 。 如 果 只 是 把 不 需要 的 记录 从 一 个 表 移 到 另 一 个 表 ， 


就 没有 必要 将 这 些 写 入 复制 到 备 库 。 可 以 禁止 归档 查询 记录 到 二 进 制 
日 志 中 ， 然 后 分 别 在 主 库 和 备 库 上 单独 执行 这 些 归档 查询 。 


自己 复制 数据 到 另外 一 台 服 务 器 ， 而 不 是 通过 复制 ， 这 听 起 来 有 
些 疯狂 ， 但 却 对 一 些 应 用 有 意义 ， 特 别 是 如 果 应 用 是 某 些 表 的 唯一 更 
新 源 。 复 制 的 瓶颈 通常 集中 在 小 部 分 表 上 。 如 果 能 在 复制 之 外 单独 处 
理 这 些 表 ， 就 能 够 显著 地 加 快 复制 。 


为 复制 线程 预 取 缓 存 


如 果 有 正确 的 工作 负载 ， 就 能 通过 预先 将 数据 读 入 内 存 中 ， 以 受 
蔓 于 在 备 库 上 的 并 行 JO 所 融 来 的 好 处 。 这 种 方式 并 不 广为人知 。 大 多 
数 人 不 会 使 用 ， 因 为 除非 有 正确 的 工作 负载 特性 和 硬件 配置 ， 否 则 可 
能 没有 任何 用 处 。 我 们 刚刚 讨论 过 的 其 他 几 种 变通 方式 通常 是 更 好 的 
选择 ， 并 且 有 更 多 的 方法 来 应 用 它们 。 但 是 我 们 知道 也 有 小 部 分 应 用 
会 受益 于 数据 预 取 。 


有 两 种 可 行 的 实现 方法 。 一 种 是 通过 程序 实现 ， 略 微 比 备 库 SQL 
线程 提前 读 取 中 继 日 志 并 将 其 转换 为 SELECT 语句 执行 。 这 会 使 得 服 
务 器 将 数据 从 磁盘 加 载 到 内 存 中 ， 这 样 当 SQL 线程 执行 到 相应 的 语句 
时 ， 就 无 须 从 磁盘 读 取 数据 。 事 实 上 ，SELECT 语 句 可 以 并 行 地 执 
行 ， 所 以 可 以 加 速 SQL 线程 的 串 行 JO。 当 一 条 语句 正在 执行 时 ， 下 一 
条 语句 需要 的 数据 也 正在 从 磁盘 加 载 到 内 存 中 。 


如 果 满 足下 面 这 些 条 件 ， 预 取 可 能 会 有 效 : 


。 复制 SQL 线 程 是 VO 密集 型 的 ， 但 备 库 服务 器 并 不 是 W/O 密集 型 
的 。 一 个 完全 的 VO 密集 型 服务 器 不 会 受益 于 预 取 ， 因 为 它 没有 多 


余 的 磁盘 性 能 来 提供 预 取 。 
。 备 库 有 多 个 硬盘 驱动 器 ， 也 许 8 个 或 者 更 多 。 
。 使 用 的 是 InnoDB5 引 擎 ， 并 且 工 作 集 远 不 能 完全 加 载 到 内 存 中 。 


一 个 受益 于 预 读 取 的 例子 是 随机 单行 UPDATE 语 句 ， 这 些 语 句 通 
常 在 主 库 上 高 并 发 执行 。DELETE 语 句 也 可 能 受益 于 这 种 方法 ， 但 
INSERT 语 句 则 不 太 可 能 会 一 一 尤其 是 当 顺 序 插 入 时 一 一 因为 前 一 次 插 


如 果 表 上 有 很 多 索引 ， 同 样 无 法 预 取 所 有 将 要 被 修改 的 数据 。 
UPDATE 语 句 可 能 需要 更 新 所 有 索引 ， 但 SELECT 语 句 通常 只 会 读 取 主 
键 和 一 个 二 级 索引 。UPDATE 语 句 依然 需要 去 读 取 其 他 索引 的 数据 以 
进行 更 新 。 在 多 索引 表 上 这 种 方法 的 效率 会 降低 。 


这 种 技术 并 不 是 “ 银 弹 ”"， 有 很 多 原因 会 导致 其 不 能 工作 ， 甚 至 适 
得 其 反 。 只 有 在 清楚 硬件 和 操作 系统 的 状况 时 才能 尝试 这 种 方法 。 我 
们 知道 有 些 人 利用 这 种 办 法 将 复制 速度 提升 了 300% 到 400%， 但 我 们 
也 尝试 过 很 多 次 ， 并 发 现 这 种 方法 常常 无 法 工作 。 正 确 地 设置 参数 非 
单 重要 ， 但 并 没有 绝对 正确 的 参数 组 合 。 


mk-slave-prefetch 是 Maatkit 中 的 一 款 工 具 ， 该 工具 实现 了 本 节 所 提 
到 的 预 取 策略 。mk-slave-prefetch 本 身 有 很 多 复杂 的 策略 以 保证 其 在 尽 
可 能 多 的 场景 下 工作 。 但 缺点 是 它 实在 太 复杂 并 且 需 要 许多 专业 知识 
来 使 用 。 另 一 款 工 具 是 Anders Karlsson 的 slavereadahead 工 具 ， 可 以 从 


http://sourceforge.net/projects/slavereadahead/ 获 得 。 


另 一 种 方法 在 写作 本 书 时 还 正在 开发 中 ， 它 是 在 InnoDB 内 部 实现 
的 。 它 可 以 允许 设置 事务 为 特殊 的 模式 ， 以 允许 InnoDB 执 行 “ 假 ”更 


新 。 因 此 可 以 使 用 一 个 程序 来 执行 这 些 假 更 新 ， 这 样 复制 线程 就 可 以 
更 快 地 执行 真正 的 更 新 。 我 们 已 经 在 Percona Server 中 为 一 个 非常 流行 
的 互联 网 网 络 应 用 单独 开发 了 该 功能 。 可 以 去 检查 一 下 此 特性 现在 的 
状态 ， 因 为 在 本 书 出 版 时 或 许 已 经 更 新 过 了 。 


如 果 正 在 考虑 这 项 技术 ， 可 以 从 一 个 熟悉 其 工作 原理 及 可 用 选项 
的 专家 那里 获得 很 好 的 建议 。 这 应 该 作为 其 他 方案 都 不 可 行 时 最 后 的 
解决 办 法 。 


10.7.15 “来 自主 库 的 过 大 的 包 


另 一 个 难以 追踪 的 问题 是 主 库 的 max_allowed_packet 值 和 备 库 的 不 
匹配 。 在 这 种 情况 下 ， 主 库 可 能 会 记录 一 个 备 库 认 为 过 大 的 包 。 当 备 
库 获 取 到 该 二 进 制 日 志 事件 时 ， 可 能 会 碰 到 各 种 各 样 的 问题 ， 包 括 无 
限 报销 和 重 试 ， 或 者 中 继 日 志 损 坏 。 


10.7.16” 受 限制 的 复制 带宽 


如 果 使 用 受 限 的 带宽 进行 复制 ， 可 以 开启 备 库 上 的 
slave_compressed_protocol 选 项 (在 MySQL 4.0 及 新 版 本 中 可 用 ) 。 当 
备 库 连 接 主 库 时 ， 会 请 求 一 个 被 压缩 的 连接 一 一 和 MySQL 客 户 端 使 用 
的 压缩 连接 一 样 。 使 用 的 压缩 引擎 是 zlibp， 我 们 的 测试 表明 它 能 将 文本 
类 型 的 数据 压缩 到 大 约 其 原始 大 小 的 三 分 之 一 。 其 代价 是 需要 额外 的 
CPU 时 间 ， 包 括 在 主 库 上 压缩 数据 和 在 备 库 上 解压 数据 。 


如 果 主 库 和 其 备 库 间 的 连接 是 慢 速 连 接 ， 可 能 需要 将 分 发 主 库 和 
备 库 分 布 在 同一 地 点 。 这 样 束 只 有 一 台 服 务 器 通过 慢 速 连接 和 主 库 相 
连 ， 可 以 减少 链 路 上 的 带宽 负载 以 及 主 库 的 CPU 负 载 。 


10.7.17 人 磁盘 空间 不 足 


复制 有 可 能 因为 二 进 制 日 志 、 中 继 日 志 或 临时 文件 将 磁盘 撑 满 。 
特别 是 在 主 库 上 执行 了 LOAD DATA INEFILE 查 询 并 在 备 库 开启 了 
log_slave_updates 选 项 。 延 迟 越 严重 ， 接 收 到 但 尚未 执行 的 中 继 日 志 会 
占用 越 多 的 磁盘 空间 。 可 以 通过 监控 磁盘 并 设置 relay_log_space 选 项 来 
避免 这 个 问题 。 


10.7.18 ”复制 的 局 限 性 


MySQL 复 制 可 能 失败 或 者 不 同步 ， 不 管 有 没有 报错 ， 这 是 因为 其 
内 部 的 限制 导致 的 。 大 量 的 SQL 函数 和 编程 实践 不 能 被 可 靠 地 复制 
\ 本 章 我 们 已 经 讨论 了 许多 这 样 的 例子 ) 。 很 难 确保 应 用 代码 里 不 会 
出 现 这 样 或 那样 的 问题 ， 特 别 是 应 用 或 者 团队 非常 庞大 的 时 候 。(2) 


另外 一 个 问题 是 服务 器 的 Bug， 虽 然 听 起 来 很 消极 ， 但 大 多 数 
MySQL 的 主 版 本 都 存在 着 历史 遗留 的 复制 Bug。 特 别 是 每 个 主 版 本 的 
第 一 个 版 本 。 话 如 存储 过 程 这 样 的 新 特性 冲 单 会 导致 更 多 的 问题 。 


MySQL 复 制 非 党 复杂。 应 用 程序 越 复杂 ， 你 就 需要 越 小 心 。 但 是 
如 果 学 会 了 如 何 使 用 ， 复 制 会 工作 得 很 好 。 


10.8 复制 有 多 快 


关于 复制 的 一 个 比较 普遍 的 问题 是 复制 到 底 有 多 快 ? 简单 来 讲 ， 
它 与 MySQL 从 主 库 复 制 事件 并 在 备 库 重 放 的 速度 一 样 快 。 如 果 网 络 很 
慢 并 且 二 进 制 日 志 事 件 很 大 ， 记 录 二 进 制 日 志和 在 备 库 上 执行 的 延迟 
可 能 会 非常 明显 。 如 果 查 询 需 要 执行 很 长 时 间 而 网 络 很 快 ， 通 常 可 以 
认为 查询 时 间 占 据 了 更 多 的 复制 时 间 开 销 。 


更 完整 的 答案 是 计算 每 一 步 花 费 的 时 间 ， 并 找到 应 用 中 耗 时 最 多 
的 那 一 部 分 。 一 些 读者 可 能 只 关注 主 库 上 记录 事件 和 将 事件 复制 到 中 
继 日 志 的 时 间 间 隔 。 对 于 那些 想 了 解 更 多 细节 的 读者 ， 我 们 可 以 做 一 
个 快速 的 实验 。 


我 们 在 本 书 的 第 一 版 详细 描述 了 复制 的 过 程 和 Giuseppe Maxia 提 
供 的 测量 高 精度 复制 速度 的 方法 (S。 我 们 创建 了 一 个 非 确 定性 的 用 户 
自 定义 水 数 (UDF) ， 以 微 秒 精度 返回 系统 时 间 ( 源 代码 参阅 前 面 的 
“FAP MRR”) : 


mysql> SELECT NOW_USEC() 


+----------------------------+ 
+----------------------------+ 


+----------------------------+ 


首先 将 NOW_USEC0O 国 数 的 值 插入 到 主 库 的 一 张 表 中 ， 然 后 比较 
它 在 备 库 上 的 值 ， 以 此 来 测量 复制 的 速度 。 


为 了 测量 延迟 ， 我 们 在 一 台 服 务 器 上 开启 两 个 MySQL 实 例 ， 以 避 
免 由 于 时 钟 引 起 的 不 精确 。 我 们 将 其 中 一 个 实例 配置 为 另 一 个 的 备 
库 ， 然 后 在 主 库 实 例 上 执行 如 下 语句 : 


mysql> CREATE TABLE test.lag_test( 
-> id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, 
-> now_usec VARCHAR(26) NOT NULL 
-> ); 
mysql> INSERT INTO test.lag_test(now_usec) VALUES( 
NOW_USEC() ); 


我 们 使 用 的 是 VARCHAR 列 ， 因 为 MySQL 内 建 的 时 间 类 型 只 能 精 
确 到 秒 《尽管 一 些 时 间 阔 数 可 以 执行 小 于 秒 级 别 的 计算 ) ， 剩 下 的 就 
是 比较 主 备 的 差异 。 这 里 我 们 使 用 Federated 表 (<。 在 备 库 上 执行 : 


mysql> CREATE TABLE test.master_val ( 
-> id INT NOT NULL AUTO_INCREMENT PRIMARY KEY 
-> now_usec VARCHAR(26) NOT NULL 


-> ) ENGINE=FEDERATED 


connection='mysql://user:pass@127.0.0.1/test/lag_test',; 


fa) AYR ERAITIMESTAMPDIFFO RANE) MAMRE Ent 
库 上 执行 查询 的 延迟 。 


mysql> SELECT m.id, TIMESTAMPDIFF(FRAC_SECOND, m.now_usec, s.now_usec) AS usec_lag 
-> FROM test.lag test as s 
-> INNER JOIN test.master val AS m USING(id); 

+----+---------- + 

| id | usec lag | 


我 们 使 用 Pen 脚本 向 主 库 中 插入 1 000 行 数据 ， 每 个 插入 间 有 10 军 
秒 的 延 时 ， 以 避免 主 备 实例 竞争 CPU 时 间 。 然 后 创建 一 个 临时 表 来 存 
储 每 个 事件 的 延迟 : 


mysql> CREATE TABLE test.lag AS 


> SELECT TIMESTAMPDIFF(FRAC_SECOND, m.now_usec, 
s.now_usec) AS lag 


-> FROM test.master_val AS m 


-> INNER JOIN test.lag test as s USING(id); 


接着 根据 延迟 时 间 分 组 ， 可 以 看 到 最 单 见 的 延迟 时 间 是 多 人 少 : 


mysql> SELECT ROUND(lag / 1000000.0, 4) * 1000 AS msec lag, COUNT(*) 
-> FROM lag 
-> GROUP BY msec_lag 


msec_lag | COUNT(*) 
EE ae Sper en 
0.1000 392 
0.2000 468 
0.3000 15 
0.4000 32 
0.5000 15 
0.6000 9 
0.7000 
1.3000 2 
1.4000 1 
1.8000 1 
4.6000 1 
6.6000 1 
24.3000 1 
+---------- +---------- + 


结果 显示 大 多 数 小 查询 在 主 库 上 的 执行 时 间 和 备 库 上 的 执行 时 间 
间隔 大 多 数 小 于 0.3 坚 秒 。 


复制 过 程 中 没有 计算 的 部 分 是 事件 在 主 库 上 记录 到 二 进 制 日 志 后 
需要 多 长 时 间 传 递 到 备 库 。 有 必要 知道 这 一 点 ， 因 为 备 库 越 快 接收 到 


日 志 事 件 越 好 。 如 果 备 库 已 经 接收 到 了 事件 ， 它 就 能 在 主 库 骨 溃 时 提 
供 一 个 拷贝 。 


尽管 我 们 的 测量 结果 没有 精确 地 显示 这 部 分 需要 多 长 时 间 ， 但 理 
论 上 非常 快 〈 例 如 ， 仅 仅 受 限于 网 络 速度 ) 。MySQL 二 进 制 日 志 转 储 
线程 并 没有 通过 轮 询 的 方式 从 主 库 请 求 事件 ， 而 是 由 主 库 来 通知 备 库 
新 的 事件 ， 因 为 前 者 低 效 且 缓慢 。 从 主 库 读 取 一 个 二 进 制 日 志 事 件 是 
一 个 阻塞 型 网 络 调用 ， 当 主 库 记录 事件 后 ， 马 上 就 开始 发 送 。 因 此 可 
以 说 ， 只 要 复制 线程 被 唤醒 并 且 能 够 通过 网 络 传输 数据 ， 事 件 就 会 很 
快 到 达 备 库 。 


10.9 MySQL 复制 的 高 级 特性 


Oracle 对 MySQL 5.5 的 复制 有 着 明显 的 改进 。 更 多 的 特性 还 在 开发 
H, MySQL 5.6 将 包含 这 些 新 特性 。 一 些 改进 使 得 复制 更 加 强健 ， 例 
如 ， 增 加 了 多 线程 (并行) 复制 以 减少 当前 单线 程 复制 的 瓶颈 。 另 
外 ， 还 有 一 些 改进 增加 了 一 些 高 级 特性 ， 使 得 复制 更 加 灵活 并 可 控 
制 。 我 们 不 会 描述 太 多 尚未 GA 的 功能 ， 但 会 讨论 一 些 MySQL 5.5 关 于 
复制 的 改进 。 第 一 个 是 半 同 步 复 制 ， 基 于 Google 多 年 前 所 做 的 工作 。 
这 是 自 MySQL 5.1 引 入 行 复 制 后 最 大 的 改进 。 它 可 以 帮助 你 确保 备 库 
拥有 主 库 数据 的 拷贝 ， 减 少 了 潜在 的 数据 丢失 危险 。 


半 同 步 复制 在 提交 过 程 中 增加 了 一 个 延迟 : 当 提交 事务 时 ， 在 客 
户 端 接收 到 碍 询 结束 反馈 前 必须 保证 二 进 制 日 志 已 经 传输 到 至 少 一 台 
备 库 上 。 主 库 将 事务 提交 到 磁盘 上 之 后 会 增加 一 些 延 迟 。 同 样 的 ， 这 
也 增加 了 客户 端的 延迟 ， 因 此 其 执行 大 量 事务 的 速度 不 会 比 将 这 些 事 
务 传 递 给 备 库 的 速度 更 快 。 


天 于 半 同 步 ， 有 一 些 普遍 的 误解 ， 下 面 是 它 不 会 去 做 的 : 


在 备 库 提示 其 已 经 收 到 事件 前 ， 会 阻塞 主 库 上 的 事务 提交 。 事 实 
上 在 主 库 上 已 经 完成 事务 提交 ， 只 有 通知 客户 端 被 延迟 了 。 

到 备 库 执行 完事 务 后 ， 才 不 会 阻塞 客户 端 。 备 库 在 接收 到 事务 
后 发 送 反 馈 而 非 完成 事务 后 发 送 。 

半 同 步 不 总 是 能 够 工作 。 如 果 备 库 一 直 没 有 回应 已 收 到 事件 ， 会 
超时 并 转化 为 正音 的 异步 复制 模式 。 


尽管 如 此 ， 这 仍然 是 一 个 很 好 用 的 工具 ， 有 助 于 确保 备 库 提 供 更 
好 的 元 余 度 和 持久 性 。 


在 性 能 方面 ， 从 客户 端的 角度 来 看 ， 增 加 了 事务 提交 的 延 时 ， 延 
时 的 多 少 取决 于 网 络 传输 ， 数 据 写 入 和 有 刷新 到 备 库 磁 盘 的 时 间 (GOR 
开启 了 配置 ) 以 及 备 库 反馈 的 网 络 时 间 。 听 起 来 似乎 这 是 累加 的 ， 但 
测试 证 明 这 些 几 乎 是 不 重要 的 ， 也 许 延 人 迟 是 由 其 他 原因 引起 的 。 
Giuseppe Maxia 发 现 每 次 提交 大 约 延 时 200 微 秒 华 )。 对 于 小 事务 开销 可 
能 会 比较 明显 ， 这 也 是 预期 中 的 。 


事实 上 半 同 步 复制 在 某 些 场景 下 确实 能 够 提供 足够 的 灵活 性 以 改 
善 性 能 ， 在 主 库 关 闭 sync_binlog 的 情况 下 保证 更 加 安全 。 写 入 远程 的 
AF (一 台 备 库 反 馈 ) 比 写 入 本 地 的 磁盘 〈 写 入 并 刷新 ) BER. 
Henrik Ingo 运 行 了 一 些 性 能 测试 表明 ， 使 用 半 同 步 复 制 相 比 在 主 库 上 
进行 强 持 久 化 的 性 能 有 两 倍 的 改善 9。 在 任何 系统 上 都 没有 绝对 的 持 
久 化 一 一 只 有 更 加 高 的 持久 化 层次 一 一 并 且 看 起 来 半 同 步 复 制 应 该 是 
一 种 比 其 他 替代 方案 开销 更 小 的 系统 数据 持久 化 方法 。 


除了 半 同 步 复 制 ，MySQL 5.5 还 提供 了 复制 心跳 ， 保 证 备 库 一 直 
与 主 库 相 联系 ， 避 免 悄 无 声息 地 断 开 连接 。 如 果 出 现 断 开 的 网 络 连 
接 ， 备 库 会 注意 到 丢失 的 心跳 数据 。 当 使 用 基于 行 的 复制 时 ， 还 提供 
了 一 种 改进 的 能 力 来 处 理 主 库 和 备 库 上 不 同 的 数据 类 型 。 有 几 个 选项 
可 以 用 于 配置 复制 元 数据 文件 是 如 何 刷新 到 磁盘 以 及 在 一 次 崩溃 后 如 
何 处 理 中 继 日 志 ， 减 少 了 备 库 骨 溃 恢 复 后 出 现 问题 的 概率 。 


我 们 还 没有 看 到 MySQL 5.5 对 复制 的 改进 大 规模 地 在 生产 环境 进 
行 部 署 ， 因 此 还 需要 进行 更 多 的 研究 。 


除了 上 面 提 到 的 ， 这 里 简要 地 列 出 其 他 一 些 改进 ， 包 括 MySQL 以 
及 第 三 方 分 支 ， 例 如 Percona Server 以 及 MariaDB : 


Oracle 在 MySQL 5.6 实 验 室 版 本 和 开发 里 程 碑 版 本 中 有 许多 的 改 


进 。 


事务 复制 状态 ， 即 使 朋 演 也 不 会 导致 元 数据 失去 同步 (Percona 
Server 和 一 MariaDB 已 经 以 别 的 形式 实现 了 ) o 

二 进 制 日 志 的 checksum 值 ， 用 于 检测 中 继 日 志 中 损坏 的 事件 。 

备 库 延 迟 复制 ， 用 于 替代 Percona Toolkit 中 的 一 pt-slave-delay 工 
具 。 

允许 基于 行 的 二 进 制 日 志 事件 也 包含 在 主 库 执行 的 SQL。 
实现 多 线程 复制 《并行 复制 ) 。 


MySQL5.6、 Percona Server、Facebook 以 及 MariaDB 提 供 了 三 种 修 
复方 法 解决 了 MySQL 5.0 引 入 的 GROUP COMMIT 的 问题 。 


10.10 ”其 他 复制 技术 


MySQL 内 建 的 复制 并 不 是 将 数据 从 一 台 服 务 器 复制 到 另外 一 台 服 
务 器 的 唯一 办 法 ， 尽 管 大 多 数 时 候 是 最 好 的 办 法 。 (与 PostgreSQL 相 
比 ，MySQL 并 疫 有 大 量 附 加 的 复制 选项 ， 可 能 是 因为 复制 功能 在 早期 
就 已 经 引入 了 ) 。 


我 们 已 经 讨论 了 MySQL 复制 的 一 些 扩展 技术 ， 如 Oracle 
GoldenGate， 但 对 大 多 数 工具 我 们 都 不 熟悉 ， 因 此 无 法 讨论 太 多 。 但 
是 有 两 个 我 们 需要 指出 来 ， 第 一 个 是 Percona XtraDB Cluster 的 同步 复 
制 ， 我 们 会 在 第 12 章 介绍 ， 因 为 它 比 较 适 合 在 高 可 用 性 这 一 章 讲 述 。 


另 一 个 是 Continuent 的 Tungsten Replicator 


(http://code.google.com/p/tungsten-replicator/) o 


Tungsten 是 一 个 用 Java 编 写 的 开源 的 中 间 件 复制 产品 。 它 的 功能 和 
Oracle GoldenGate 类 似 ， 并 且 看 起 来 在 未 来 发 布 的 版 本 中 将 逐步 增加 
许多 复杂 的 特性 。 在 写作 本 书 时 ， 它 已 经 提供 了 一 些 特性 ,例如 ,在 
服务 器 间 复 制 数 据 、 自 动 数据 分 片 、 在 备 库 并 发 执行 更 新 (多 线程 复 
制 ) 、 当 主 库 失败 时 提升 备 库 、 跨 平台 复制 ， 以 及 多 源 复 制 (STB 
制 源 到 一 个 目标 ) 。 它 是 Tungsten 数 据 库 clustering suite 的 开源 版 本 。 


Tungsten 同 样 实现 了 多 主 库 集群 ， 可 以 把 写 入 指向 集群 中 任意 一 
台 服 务 器 。 这 种 架构 的 实现 通常 都 包含 冲突 发 现 与 解决 。 这 一 点 很 难 
做 到 ， 并 且 不 总 是 需要 的 。Tungsten 的 实现 稍微 做 了 点 限制 ， 不 是 所 
有 的 数据 都 能 在 所 有 的 节点 写 入 ， 每 个 节点 被 标记 为 记录 系统 ， 以 接 
收 特定 的 数据 。 例 如 ， 在 西雅图 的 办 公 室 可 以 拥有 并 写 入 它 的 数据 ， 
然后 复制 到 休斯敦 和 巴尔 的 摩 。 在 休斯敦 和 巴尔 的 摩 本 地 可 以 实现 低 
延迟 读数 据 ， 但 在 这 里 Tungsten 不 允许 写 入 数据 ， 这 样 数据 冲突 就 不 
存在 了 。 当 然 休斯敦 和 巴尔 的 摩 可 以 更 新 它们 自己 的 数据 ， 并 被 复制 
到 其 他 地 点 。 这 种 “记录 系统 ”方案 解决 了 人 们 需要 在 环形 结构 中 频繁 


调整 内 建 MySQL 复 制 的 问题 。 我 们 之 前 讨论 的 环形 复制 还 远 远 不 够 安 
全 或 强健 。 


Tungsten Replicator 不 仅仅 是 通 入 或 管理 MySQL 复 制 ， 而 是 直接 替 
代 它 。 它 通过 读 取 主 库 的 二 进 制 日 志 来 获得 数据 更 新 ， 那 里 正 是 内 建 
MySQL 复 制 工作 结束 的 地 方 ， 然 后 由 Tungsten Replicator 接 管 。 它 读 取 
二 进 制 日 志 ， 并 抽取 出 事务 ， 然 后 在 备 库 执行 它们 。 


该 过 程 比 MySQL 复 制 本 身 有 更 丰富 的 功能 集 。 实 际 上 ，Tungsten 
Replicator 是 第 一 个 提供 MySQL 并 行 复制 支持 的 。 昌 然 我 们 还 没有 看 到 
其 被 应 用 到 生产 环境 中 ， 但 它 声 称 能 够 提供 最 多 三 倍 的 复制 速度 改 
善 ， 具 体 取决 于 负载 特性 。 基 于 该 架构 以 及 我 们 对 该 产品 的 了 解 ， 这 
看 起 来 是 可 信 的 。 


以 下 是 关于 Tungsten Replicator 中 值得 欣赏 的 部 分 : 


它 提 供 了 内 建 的 数据 一 致 性 检查 。 

提供 了 插件 特性 ， 因 此 你 可 以 编写 自己 的 函数 。MySQL 的 复制 源 
代码 非常 难以 理解 并 且 很 难 去 修改 。 即 使 非常 聪明 的 程序 员 在 试 
图 修改 时 ， 也 会 引入 新 的 Bug。 因 而 能 有 种 途径 去 修改 复制 而 无 
须 修改 MySQL 的 复制 代码 ， 是 非常 理想 的 。 

拥有 全 局 事务 ID， 能 够 帮助 你 了 解 每 个 服务 器 相互 之 间 的 状态 而 
无 须 去 匹配 二 进 制 日 志 名 和 偏 移 量 。 

它 是 一 个 高 可 用 的 解决 方案 ， 能 够 快速 地 将 一 台 备 库 提升 为 主 
库 。 

提供 异 构 数 据 复制 (例如 ， 在 MySQL 和 PostgreSQL 之 间或 者 
MySQL 和 Oracle 之 间 ) o 


支持 不 同 版 本 的 MySQL 复 制 ， 以 防止 MySQL 复 制 不 能 反 向 兼 
容 。 这 对 某 些 升级 的 场景 非常 有 用 。 当 升级 运行 得 不 理想 时 ， 你 
可 能 无 法 设计 一 个 可 行 的 回 滚 方案 ， 或 者 必须 升级 服务 器 到 一 个 
并 不 是 你 期 望 的 版 本 。 

并 行 复 制 的 设计 非常 适用 于 共享 应 用 程序 或 多 任务 应 用 程序 。 

Java 应 用 能 够 明确 地 写 入 主 库 并 从 备 库 读 取 。 

43m + Giuseppe Maxia 作 为 QA 主 管 的 大 量 工 作 ， 现 在 比 以 往 更 加 
简单 并 且 更 加 容易 配置 和 管理 。 


以 下 是 它 的 一 些 缺 点 : 


它 比 内 建 的 MySQL 复 制 更 加 复杂 ， 有 更 多 可 变动 的 地 方 需要 配置 
和 管理 ， 毕 竟 它 是 一 个 中 间 件 。 

在 你 的 应 用 栈 中 需要 多 学 习 和 理解 一 个 新 的 工具 。 

它 并 不 像 内 建 的 MySQL 复 制 那样 轻 量 级 ， 并 且 没 有 同样 的 性 能 。 
使 用 Tungsten Replicator 进 行 单线 程 复制 比 MySQL 的 单线 程 复制 要 
作为 MySQL 复 制 并 没有 经 过 广泛 的 测试 和 部 署 ， 所 以 Bug 和 问题 
的 风险 很 高 。 


总 而 言 之 ， 我 们 很 高 兴 Tungsten Replicator 是 可 用 的 ， 并 且 在 积极 


的 开发 中 ， 稳 定 地 释放 新 的 特性 和 功能 。 拥 有 一 个 可 替代 内 建 MySQL 
复制 的 选择 ， 这 非常 棒 ， 使 得 MySQL 能 够 适用 于 更 多 的 应 用 场景 ， 并 
且 足 够 灵活 ， 能 够 满足 内 建 的 MySQL 复 制 可 能 永远 无 法 满足 的 需求 。 


10.11 总结 


MySQL 复 制 是 其 内 建功 能 中 的 “瑞士 军刀 ”， 显 著 增 加 了 MySQL 的 
功能 和 可 用 性 。 事 实 上 这 也 是 MySQL 这 么 快 就 如 此 流行 的 关键 原因 之 


o 


尽管 复制 有 许多 限制 和 风险 ， 但 大 多 数 相对 不 重要 或 者 对 大 多 数 
用 户 而 言 是 可 以 避免 的 。 许 多 缺点 只 在 一 些 高 级 特性 的 特殊 行为 中 ， 
这 些 特 性 对 少数 需要 的 人 而 言 是 有 帮助 的 ， 但 大 多 数 人 并 不 会 用 到 。 


正 因 为 复制 提供 了 如 此 重要 和 复杂 的 功能 ， 服 务 器 本 身 不 提供 所 
有 其 他 你 需要 的 功能 ， 例 如 ， 配 置 、 监 控 、 管 理 和 优化 。 第 三 方 工 具 
可 以 很 好 地 帮助 你 。 虽 然 可 能 有 失 偏 颇 ， 但 我 们 认为 最 值得 关注 的 工 
有 具 一 定 是 Percona Toolkit 和 Percona XtraBackup， 它 们 能 够 很 好 地 改进 
你 对 复制 的 使 用 。 在 使 用 别 的 工具 前 ， 建 议 你 先 检 查 它 们 的 测试 集 
合 ， 如 果 没 有 正式 的 、 自 动 化 的 测试 集合 ， 在 将 其 应 用 到 你 的 数据 之 
前 请 认真 考虑 。 


对 于 复制 ， 应 该 铭记 K.I.S.S( 信 原则。 不 要 按照 想象 做 事 ， 例 如 ， 
使 用 环形 复制 、 黑 洞 表 或 者 复制 过 滤 ， 除 非 确实 有 需要 。 使 用 复制 简 
单 地 去 镜像 一 份 完整 的 数据 拷贝 ， 包括 所 有 的 权限 。 在 各 方面 保持 你 
的 主 备 库 相同 可 以 帮助 你 避免 很 多 问题 。 


谈 到 保持 主 库 和 备 库 相同 ， 这 里 有 一 个 简短 但 很 重要 的 列表 告诉 
你 在 使 用 复制 的 时 候 需要 做 什么 : 


。 使 用 Percona Toolkit 中 的 pt-table-checksum 以 确定 备 库 是 主 库 的 真 
KHT 
监控 复制 以 确定 其 正在 运行 并 且 疫 有 落后 于 主 库 。 


。 理解 复制 的 异步 本 质 ， 并 且 设 计 你 的 应 用 以 避免 或 容忍 从 备 库 读 
取 脏 的 数据 。 

。 在 一 个 复制 拓扑 中 不 要 写 入 超过 一 个 服务 器 ， 把 备 库 配置 为 只 
读 ， 并 降低 权限 以 阻止 对 数据 的 改变 。 

。 打 开本 章 所 讨论 的 那些 明智 并 且 安 全 的 设置 。 


正如 我 们 将 要 在 第 12 章 讨论 的 ， 复 制 失败 是 MySQL 故 障 时 间 中 最 
普遍 的 原因 之 一 。 为 了 避免 复制 的 问题 ， 阅 读 第 12 章 ， 并 尝试 应 用 其 
给 予 的 建议 。 你 同样 也 应 该 通读 MySQL 手 册 中 关于 复制 的 章节 ， 并 了 
解 复制 如 何 工 作 以 及 如 何 去 管 理 它 。 如 果 乐 于 阅读 ， Charles Bell et al. 
所 著 的 MySQL High Availability (O'Reilly) 一 书 中 有 许多 关于 复制 内 
部 的 有 用 信息 。 但 你 依然 需要 阅读 手册 ! 


(1) 可 能 有 些 地 方 将 会 复制 备 库 (replica) MAME (slave) ， 这 里 我 们 尽量 避免 这 种 叫 
法 。 

(2) 如 果 对 二 进 制 日 志 感 到 陌生 ， 可 以 在 第 8 章 、 本 章 剩 下 的 部 分 以 及 第 15 章 获得 更 多 的 
言 息 。 

(3) 严格 来 讲 这 不 是 必需 的 ， 但 我 们 推荐 这 么 做 ， 稍 后 我 们 会 解释 为 什么 。 

(4) 事实 上 ， 正 如 之 前 从 SHOW MASTER STATUS 看 到 的 ， 真 正 的 日 志 起 始 位 置 是 98， 一 
旦 备 库 连接 到 主 库 就 开始 工作 ， 现 在 连接 还 未 发 生 。 

(5) 语句 在 无 限 循环 中 来 回 传递 也 是 多 服务 器 环形 复制 拓扑 结构 中 比较 有 意思 的 话题 之 
一 ， 后 面 我 们 会 提 到 。 要 尽量 避免 环形 复制 。 

(6) 如 果 使 用 的 是 基于 语句 的 复制 ， 就 会 有 这 样 的 问题 ， 但 基于 行 的 复制 方式 则 不 会 (5 
一 个 远离 它们 的 理由 ) 。 


D 从 技术 上 讲 这 并 非 正确 的 。 但 如 果 有 重复 的 服务 器 ID， 它 们 将 陷入 竞争 ， 并 反复 将 对 
方 从 主 库 上 踢 出 。 


(8) 事实 上 这 些 问题 经 常 一 周 发 生 三 次 ， 并 且 我 们 也 发 现 需要 好 几 个 月 才能 解决 这 些 问 


题 。 


(9) 一 些 ， 但 不 是 全 部 一 一 我 们 可 以 吹 毛 求 疲 ， 并 指出 任何 你 可 以 想象 的 漏洞 。 

(10) 可 以 通过 设置 SQL_LOG_BIN=0 来 暂时 茶 止 记录 二 进 制 日 志 而 无 须 停止 复制 。 一 些 语 
句 ， 例 如 Optimize TABLE ， 也 支持 LOCAL 或 者 NO_WRITE_TO_BINLOG 这 些 停止 日 志 的 选 
项 。 

(11) 也 许 应 该 说 ， 是 更 明智 的 特例 。 

(12) 从 MySQL Bug 35178 和 62829 开 始 查阅 ， 总 地 来 说 ， 如 果 使 用 的 是 不 标准 的 存储 引擎 
特性 ， 最 好 去 看 看 那些 打开 或 者 关闭 的 受 影响 的 Bug。 

(13) 可 以 使 用 Percona 的 工具 集中 的 pt-heartbeat 来 创建 一 个 粗糙 的 全 局 事务 ID。 这 样 可 以 
很 方便 地 在 多 个 服务 器 上 寻找 二 进 制 日 志 的 位 置 。 因 为 “心跳 表 ” 本 身 就 记录 了 大 概 的 二 进 制 
日 志 位 置 。 

(14) 我 们 明确 地 使 用 /bin/ls 以 避免 启用 通用 别名 ， 它 们 会 为 终端 着 色 添 加 转 义 码 。 

(15) 如 果 复 制 线程 总 是 在 运行 ， 你 可 以 使 用 服务 器 的 uptime 来 代替 CONNECTED_TIME 的 

一 半 。 

(16) 如 果 你 正在 使 用 非 事务 型 存储 引擎 ， 不 首先 调用 STOP SLAVE 就 关闭 服务 器 是 很 不 妥 
当 的 。 

(17) 这 是 有 可 能 的 ， 即 使 MySQL 在 事务 提交 前 并 不 记录 任何 事件 。 具 体 参阅 “混合 事务 型 
和 非 事务 型 表 "。 另 外 一 种 场景 是 主 库 崩溃 后 恢复 ， 但 没有 设置 
innodb_flush_log_at_trx_commit 的 值 为 1， 所 以 可 能 丢失 一 些 更 新 。 

(18) 正如 前 面 提 到 的 ，pt-heartbeat 的 心跳 记录 能 够 很 好 地 帮助 你 找到 你 正在 查找 的 事件 
的 大 约 位 置 。 

(19) 也 许 你 想 把 它 保存 在 服务 器 中 ， 这 不 完全 是 玩笑 ， 可 以 给 ID 列 添 加 一 个 唯一 索引 。 

(20) 我 们 已 经 有 人 尝试 各 种 方法 来 解决 这 个 问题 ， 但 对 于 基于 语句 的 复制 并 没有 安全 的 
临时 表 创 建 方法 。 起 码 一 段 时 期 是 这 样 ， 不 管 你 如 何 认为 ， 起 码 我 们 已 经 证 明了 这 是 不 可 行 
的 。 

(21) pt-find 
易 地 移 除 伪 临 时 表 。 

(22) 最 近 的 MySQL 版 本 没有 forbid_operations_unsafe_for_replication 选 项 ， 但 它 确 实 对 一 
些 不 安全 的 事情 起 到 了 警示， 甚至 拒绝 。 

(23) ££ http://datacharmer. blogspot.com/2006/04/measuring-replication-speed.html 

(24) 顺便 说 一 下 ， 这 也 是 一 些 作 者 唯一 一 次 使 用 Federated 存 储 引擎 。 

(25) 人 参 阅 http://datacharmer.blogspot.com/2011/05/price-of-safe-data-benchmarking- 


semi. html, 


另 一 个 Percona Toolkit 工 具 - 通过 --connection-id 和 --server-id 选 项 能 够 轻 


(26) 参阅 http:/openlife.cc/blogs/2011/may/drbd-and-semi-sync-shootout-large-servero 


(27) Keep It Simple, Schwartz! 总 之 一 些 人 认为 这 是 K.L.S.S 的 含义 。 


第 11 章 ”可 扩展 的 MySQL 


本 章 将 展示 如 何 构建 一 个 基于 MySQL 的 应 用 ， 并 且 当 规模 变 得 越 
来 越 庞大 时 ， 还 能 保证 快速 、 高 效 并 且 经 济 。 


有 些 应 用 仅仅 适用 于 一 台 或 少数 几 台 服务 器 ， 那 么 哪些 可 扩展 性 
建议 是 和 这 些 应 用 相关 的 呢 ? 大 多 数 人 从 不 会 维护 超大 规模 的 系统 ， 
并 且 通 常 也 无 法 效仿 在 主流 大 公司 所 使 用 的 策略 。 本 章 会 涵盖 这 一 系 
列 的 策略 。 我 们 已 经 建立 或 者 协助 建立 了 许多 应 用 ， 包 括 从 单 台 或 少 
量 服 务 器 的 应 用 到 使 用 上 千 台 服务 器 的 应 用 。 选 择 一 个 合适 的 策略 能 
够 大 大 地 节约 时 间 和 金钱 。 


MySQL 经 常 被 批评 很 难 进行 扩展 ， 有 些 情 况 下 这 种 看 法 是 正确 
的 ， 但 如 果 选 择 正确 的 架构 并 很 好 地 实现 ， 就 能 够 非常 好 地 扩展 
MySQL。 但 是 扩展 性 并 不 是 一 个 很 好 理解 的 主题 ， 所 以 我 们 先 来 理 清 
一 些 容易 混淆 的 地 方 。 


11.1 什么 是 可 扩展 性 


人 们 常常 把 诸如 “可 扩展 性 " “高 可 用 性 ”以 及 “性 能 ”等 术语 在 一 
些 非 正式 的 场合 用 作 同 义 词 ， 但 事实 上 它们 是 完全 不 同 的 。 在 第 3 章 已 
经 解释 过 ， 我 们 将 性 能 定义 为 响应 时 间 。 我 们 也 可 以 很 精确 地 定义 可 
扩展 性 ， 稍 后 将 完整 讨论 。 简 要 地 说 ， 可 扩展 性 表明 了 当 需 要 增加 资 
源 以 执行 更 多 工作 时 系统 能 够 获得 划算 的 等 同 提升 (equal bang for the 
buck) 的 能 力 。 缺 乏 扩 展 能 力 的 系统 在 达到 收益 递减 的 转折 点 后 ， 将 
无 法 进一步 增长 。 


容量 是 一 个 和 可 扩展 性 相关 的 概念 。 系 统 容量 表示 在 一 定时 间 内 
能 够 完成 的 工作 量 由 ， 但 容量 必须 是 可 以 有 效 利用 的 。 系 统 的 最 大 否 
吐 量 并 不 等 同 于 容量 。 大 多 数 基准 测试 能 够 衡量 一 个 系统 的 最 大 吞吐 
量 ， 但 真实 的 系统 一 般 不 会 使 用 到 极限 。 如 果 达 到 最 大 吞吐 量 ， 则 性 
能 会 下 降 ， 并 且 响 应 时 间 会 变 得 不 可 接受 地 大 且 非 党 不 稳定 。 我 们 将 
系统 的 真实 容量 定义 为 在 保证 可 接受 的 性 能 的 情况 下 能 够 达到 的 吞吐 


量 。 这 就 是 为 什么 基准 测试 的 结果 通常 不 应 该 简化 为 一 个 单独 的 数 
字 。 

容量 和 可 扩展 性 并 不 依赖 于 性 能 。 以 高 速 公 路 上 的 汽车 来 类 比 的 
话 : 


性 能 是 汽车 的 时 速 。 

容量 是 车 道 数 乘 以 最 大 安全 时 速 。 

可 扩展 性 就 是 在 不 减 慢 交 通 的 情况 下 ， 能 增加 更 多 车 和 和 车道 的 程 
度 。 


在 这 个 类 比 中 ， 可 扩展 性 依赖 于 多 个 条 件 : 换 道 设计 得 是 否 合 
理 、 路 上 有 多 少 车 抛锚 或 者 发 生 事故 ， 汽 车 行驶 速度 是 否 不 同 或 者 是 
否 频 繁 变换 车 道 一 一 但 一 般 来 说 和 汽车 的 引擎 是 否 强 大 无 关 。 这 并 不 
是 说 性 能 不 重要 ， 性 能 确实 重要 ， 只 是 需要 指出 ， 即 使 系统 性 能 不 是 
很 高 也 可 以 具备 可 扩展 性 。 


从 较 高 层次 看 ， 可 扩展 性 就 是 能 够 通过 增加 资源 来 提升 容量 的 能 
力 。 


即使 MySQL 架 构 是 可 扩展 的 ， 但 应 用 本 身 也 可 能 无 法 扩展 ， 如 果 
很 难 增 加 容量 ， 不 管 原因 是 什么 ， 应 用 都 是 不 可 扩展 的 。 之 前 我 们 从 


吞吐 量 方 面 来 定义 容量 ， 但 同样 也 需要 从 较 高 的 层次 来 看 待 容 量 问 
题 。 从 有 利 的 角度 来 看 ， 容 量 可 以 简单 地 认为 是 处 理 负载 的 能 力 ， 从 
不 同 的 角度 来 考虑 负载 很 有 帮助 。 


数据 量 


应 用 所 能 累积 的 数据 量 是 可 扩展 性 最 普遍 的 挑战 ， 特 别 是 对 
于 现在 的 许多 互联 网 应 用 而 言 ， 这 些 应 用 从 不 删除 任何 数据 。 例 
如 社交 网 站 ， 通 常 从 不 会 删除 老 的 消息 或 评论 。 


APS 


即使 每 个 用 户 只 有 少量 的 数据 ， 但 在 累计 到 一 定数 量 的 用 户 
后 ， 数 据 量 也 会 开始 不 成 比例 地 增长 且 速 度 快 过 用 户 数 增长 。 更 
多 的 用 户 意 味 着 要 处 理 更 多 的 事务 ， 并 且 事 务 数 可 能 和 用 户 数 不 
成 比例 。 最 后 ， 大 量 用 户 (以 及 更 多 的 数据 ) 也 意味 着 更 多 复杂 
的 查询 ， 特 别 是 查询 跟 用 户 关 系 相关 时 (用 户 间 的 关联 数 可 以 用 
Nx (N-1) RHE, 这 里 N 表 示 用 户 数 ) 。 


用 户 活跃 度 


不 是 所 有 的 用 户 活 跃 度 都 相同 ， 并 且 用 户 活 跃 度 也 不 总 是 不 
变 的 。 如 果 用 户 突然 变 得 活跃 ， 例 如 由 于 增加 了 一 个 吸引 人 的 新 
特性 ， 那 么 负载 可 能 会 明显 提升 。 用 户 活跃 度 不 仪 仅 指 页 面 浏览 
数 ， 即 使 同样 的 页 面 浏览 数 ， 如 果 网 站 的 某 个 需要 执行 大 量 工作 
的 部 分 变 得 流行 ， 也 可 能 导致 更 多 的 工作 。 另 外 ， 某 些 用 户 也 会 
比 其 他 用 户 更 活跃 : 他 们 可 能 比 一 般 人 有 更 多 的 朋友 、 消 息 和 照 
Fo 


相关 数据 集 的 大 小 \ 


如 果 用 户 间 存 在 关系 ， 应 用 可 能 需要 在 整个 相关 联 用 户 群体 
上 执行 查询 和 计算 ， 这 比 处 理 一 个 一 个 的 用 户 和 用 户 数 据 要 复杂 
得 多 。 社 交 网 站 经 常会 遇 到 由 那些 人 气 很 旺 的 用 户 组 或 朋友 很 多 
的 用 户 所 带 来 的 挑战 3。 


11.1.1 ”正式 的 可 扩展 性 定义 


有 必要 探讨 一 下 可 扩展 性 在 数学 上 的 定义 了 ， 这 有 助 于 在 更 高 层 
次 的 概念 上 清晰 地 理解 可 扩展 性 。 如 果 没 有 这 样 的 基础 ， 就 可 能 无 法 
理解 或 精确 地 表达 可 扩展 性 。 不 过 不 用 担心 ， 这 里 不 会 涉及 高 等 数 
学 ， 即 使 不 是 数学 天 才 ， 也 能 够 很 直观 地 理解 它 。 


关键 是 之 前 我 们 使 用 的 短语 : “划算 的 等 同 提升 (equal bang for 
the buck) ”。 另 一 种 说 法 是 ， 可 扩展 性 是 当 增 加 资源 以 处 理 负载 和 增 
加 容量 时 系统 能 够 获得 的 投资 产 出 率 (ROI) 。 假 设 有 一 个 只 有 一 台 
服务 器 的 系统 ， 并 且 能 够 测量 它 的 最 大 容量 ， 如 图 11-1 所 示 。 


Bi i 


1 服务 器 


图 11-1: 一 个 只 有 一 台 服 务 器 的 系统 


假设 现在 我 们 增加 一 台 服 务 器 ， 系 统 的 能 力 加 倍 ， 如 图 11-2 所 
示 。 


1 2 服务 器 


图 11-2: 一 个 线性 扩展 的 系统 能 由 两 台 服务 器 获得 两 倍 容量 


这 就 是 线性 扩展 。 我 们 增加 了 一 倍 的 服务 器 ， 结 果 增 加 了 一 倍 的 
容量 。 大 部 分 系统 并 不 是 线性 扩展 的 ， 而 是 如 图 11-3 所 示 的 扩展 方 
式 。 


1 2 ”服务 器 


图 11-3: 一 个 非 线 性 扩展 的 系统 


大 部 分 系统 都 只 能 以 比 线性 扩展 略 低 的 扩展 系数 进行 扩展 。 越 高 
的 扩展 系数 会 导致 越 大 的 线性 偏差 。 事 实 上 ， 多 数 系统 最 终 会 达到 一 
个 最 大 吞吐 量 临 界 点 ， 超 过 这 个 点 后 增加 投入 反而 会 审 来 负 回报 一 一 
继续 增加 更 多 工作 负载 ， 实 际 上 会 降低 系统 的 吞吐 量 。3) 


这 怎么 可 能 呢 ? 这 些 年 产生 了 许多 可 扩展 性 模型 ， 它 们 有 着 不 同 
程度 的 良好 表现 和 实用 性 。 我 们 这 里 所 讲 的 可 扩展 性 模型 是 基于 某 些 
能 够 影响 系统 扩展 的 内 在 机 制 。 这 就 是 Neil J. Gunther 博 士 提出 的 通用 
可 扩展 性 定律 (Universal Scalability Law, USL) o Gunther 博 士 将 这 
些 详 尽 地 写 到 了 他 的 书 中 ， 包括 Guerrilla Capacity Planning 

(Springer) 。 这 里 我 们 不 会 深入 到 背后 的 数学 理论 中 ， 如 果 你 对 此 感 
兴趣 ， 他 撰写 的 书籍 以 及 由 他 的 公司 Performance Dynamics 提 供 的 训练 
课程 可 能 是 比较 好 的 资源 。 和 外 


简 而 言 之 ，USL 说 的 是 线性 扩展 的 偏差 可 通过 两 个 因素 来 建立 模 
型 : 无 法 并 发 执行 的 一 部 分 工作 ， 以 及 需要 交互 的 另外 一 部 分 工作 。 
为 第 一 个 因素 建 模 就 有 了 著名 的 Amdahl 定 律 ， 它 会 导致 吞吐 量 趋 于 平 
缓 。 如 果 部 分 任务 无 法 并 行 ， 那 么 不 管 你 如 何 分 而 治之 ， 该 任务 至 少 
需要 串 行 部 分 的 时 间 。 


增加 第 二 个 因素 一 一 内 部 节点 间或 者 进程 间 的 通信 一 一 到 Amdahl 
定律 就 得 出 了 USL。 这 种 通信 的 代价 取决 于 通信 信道 的 数量 ， 而 信道 
的 数量 将 按照 系统 内 工作 者 数量 的 二 次 方 增长 。 因 此 最 终 开销 比 带 来 
的 收益 增长 得 更 快 ， 这 是 产生 扩展 性 倒退 的 原因 。 图 11-4 前 明了 目前 
讨论 到 的 三 个 概念 : 线性 扩展 、Amdahl 扩 展 ， 以 及 USL 扩 展 。 大 多 数 
真实 系统 看 起 来 更 像 USL 曲 线 。 


容 线性 扩展 
E Amdahl 扩展 = = = 
ULPE een 


服务 器 数量 


图 11-4: 线性 扩展 、AmdahI 扩 展 以 及 USL 扩 展 定律 


USL 可 以 应 用 于 硬件 和 软件 领域 。 对 于 硬件 ， 横 轴 表 示 硬 件 的 数 
量 ， 例 如 服务 器 数量 或 CPU 数 量 。 每 个 硬件 的 工作 量 、 数 据 大 小 以 及 
查询 的 复杂 度 必须 保持 为 常量 中 。 对 于 软件 ， 横 轴 表 示 并 发 度 ， 例 如 
用 户 数 或 线程 数 。 每 个 并 发 的 工作 量 必 须 保持 为 帅 量 。 


有 一 点 很 重要 ，USL 并 不 能 完美 地 描述 真实 系统 ， 它 只 是 一 个 简 
化 模型 。 但 这 是 一 个 很 好 的 框架 ， 可 用 于 理解 为 什么 系统 增长 无 法 珊 
来 等 同 的 收益 。 它 也 揭示 了 一 个 构建 高 可 扩展 性 系统 的 重要 原则 : 在 
系统 内 尽量 避免 囊 行 化 和 交互 。 


可 以 衡量 一 个 系统 并 使 用 回归 来 确定 串 行 和 交互 的 量 。 你 可 以 将 
它 作为 容量 规划 和 性 能 预测 评估 的 最 优 上 限 值 。 也 可 以 检查 系统 是 怎 
么 偏离 USL 模 型 的 ， 将 其 作为 最 差 下限 值 以 措 出 系统 的 哪 一 部 分 没有 
表现 出 它 应 有 的 性 能 。 这 两 种 情况 下 ，USL 给 出 了 一 个 讨论 可 扩展 性 
的 参考 。 如 果 没 有 USL， 那 即使 果 着 系统 看 也 无 法 知道 期 望 的 结果 是 


什么 。 如 果 想 深入 了 解 这 个 主题 ， 最 好 去 看 一 下 对 应 的 书籍 。Gunther 
博士 已 经 写 得 很 清楚 ， 因 此 我 们 不 会 再 深入 讨论 下 去 。 


另外 一 个 理解 可 扩展 性 问题 的 框架 是 约束 理论 ， 它 解释 了 如 何 通 
过 减少 依赖 事件 和 统计 变化 (statistical variation) 来 改进 系统 的 吞吐 
量 和 性 能 。 这 在 Eliyahu M. Goldratt 所 撰写 的 The Goal (North River) 
一 书 中 有 描述 ， 其 中 有 一 个 关于 管理 制造 业 设备 的 延伸 的 比喻 。 尽 管 
这 看 起 来 和 数据 库 服务 器 没有 什么 关联 ， 但 其 中 包含 的 法 则 和 排队 理 
论 以 及 其 他 运筹 学 方面 是 一 样 的 。 


扩展 模型 不 是 最 终 定 论 


虽然 有 许多 理论 ， 但 在 现实 中 能 做 到 何 种 程度 呢 ? 正如 牛顿 定 
律 被 证 明 只 有 远 低 于 光速 时 才 合 理 ， 那 些 “ 扩 展 性 定律 ”也 只 是 在 某 
些 场景 下 才能 很 好 工作 的 简化 模型 。 有 一 种 说 法 认为 所 有 的 模型 都 
是 错误 的 ， 但 有 一 些 模型 还 是 有 用 的 ， 特 别 是 USL 能 够 帮助 理解 一 
些 导 致 扩展 性 差 的 因素 。 


当 工作 负载 和 其 所 运行 的 系统 存在 微妙 的 天 系 时 ，USL 理 论 可 
能 失效 。 例 如 ， 一 个 USL 无 法 很 好 建 模 的 单 见 情况 是 : 当 集群 的 总 
内 存 由 于 数据 集 大 小 而 发 生 改 变 时 ， 也 会 导致 系统 的 行为 发 生变 
化 。USL 不 允许 比 线性 更 好 的 可 扩展 性 ， 但 现实 中 可 能 会 发 生 这 样 
的 事情 : 增加 系统 的 资源 后 ， 原 来 一 部 分 IO 密集 型 的 工作 变 成 了 纯 
内 存 工作 ， 因 此 获得 了 超过 线性 的 性 能 扩展 。 


还 有 一 些 情况 ，USL 无 法 很 好 描述 系统 行为 。 当 系统 或 数据 集 
大 小 改变 时 算法 的 复杂 度 可 能 改变 ， 类 似 这 样 的 情况 下 可 能 就 无 法 


建立 模型 (USL 由 O(1) 复 杂 度 和 和 O(N) 复杂 度 两 部 分 构成 ， 那 么 对 于 
诸如 O(logN) 或 者 O(NlogN) 这 样 复杂 度 的 部 分 呢 ? ) 。 根 据 一 些 思 考 
和 实际 经 验 ， 我 们 可 以 将 USL 扩 展 以 覆盖 这 些 比 较 普 遍 的 场景 中 的 
一 部 分 。 但 这 会 将 一 个 简单 并 且 有 用 的 模型 变 得 复杂 并 难以 使 用 。 
事实 上 ， 它 在 很 多 情况 下 都 是 很 好 的 ， 足 以 为 你 所 能 想象 到 的 系统 
行为 建立 模型 。 这 也 是 为 什么 我 们 发 现 它 是 在 正确 性 和 有 效 性 之 间 
的 一 个 很 好 的 妥协 。 


简单 地 说 : 有 保留 地 使 用 模型 ， 并 且 在 使 用 中 验证 你 的 发 现 。 


11.2 ”扩展 MySQL 


如 果 将 应 用 所 有 的 数据 简单 地 放 到 单个 MySQL 服 务 器 实例 上 ， 则 
无 法 很 好 地 扩展 ， 述 早 会 磁 到 性 能 瓶颈 。 对 于 许多 类 型 的 应 用 ， 传 统 
的 解决 方法 是 购买 更 多 强悍 的 机 器 ， 也 就 是 单 说 的 “垂直 扩展 ?或 者 “向 
上 扩展 ”。 另 外 一 个 与 之 相反 的 方法 是 将 任务 分 配 到 多 人 台 计 算 机 上 ， 这 
通 单 被 称 为 "水平 扩展 ?或 者 “向 外 扩展 ”。 我 们 将 讨论 如 何 联合 使 用 同 
上 扩展 和 向 外 扩展 的 解决 方案 ， 以 及 如 何 使 用 集群 方案 来 进行 扩展 。 
最 后 ， 大 部 分 应 用 还 会 有 一 些 很 少 或 者 从 不 需要 的 数据 ， 这 些 数 据 可 
以 被 清理 或 归档 。 我 们 将 这 个 方案 称 为 “< 向 内 扩展 ”"”， 这 么 取 名 是 为 了 
和 其 他 策略 相 匹 配 。 


11.2.1 规划 可 扩展 性 


人 们 通常 只 有 在 无 法 满足 增加 的 负载 时 才 会 考虑 到 可 扩展 性 ， 具 
体 表现 为 工作 负载 从 CPU 密 集 型 变 成 1/O 密 集 型 ， 并 发 查询 的 竞争 ， 以 
及 不 断 增 大 的 延迟 。 主 要 原因 是 查询 的 复杂 度 增加 或 者 内 存 中 驻 留 着 
一 部 分 不 再 使 用 的 数据 或 者 索引 。 你 可 能 看 到 一 部 分 类 型 的 查询 发 生 
改变 ， 例 如 大 的 查询 或 者 复杂 查询 常常 比 那 些小 的 查询 更 影响 系统 。 


如 果 是 可 扩展 的 应 用 ， 则 可 以 简单 地 增加 更 多 的 服务 器 来 分 担负 
载 ， 这 样 就 没有 性 能 问题 了 。 但 如 果 不 是 可 扩展 的 ， 你 会 发 现 自己 将 
遭遇 到 无 穷 无 尽 的 问题 。 可 以 通过 规划 可 扩展 性 来 避免 这 个 问题 。 


规划 可 扩展 性 最 困难 的 部 分 是 估算 需要 承担 的 负载 到 底 有 多 少 。 
这 个 值 不 一 定 非常 精确 ， 但 必须 在 一 定 的 数量 级 范围 内 。 如 果 估计 过 
高 ， 会 浪费 开发 资源 。 但 如 果 低 估 了 ， 则 难以 应 付 可 能 的 负载 。 


另外 还 需要 大 致 正确 地 估计 日 程 表 一 一 也 就 是 说 ， 需 要 知道 底线 
在 哪里 。 对 于 一 些 应 用 ， 一 个 简单 的 原型 可 以 很 好 地 工作 几 个 月 ， 从 
而 有 时 间 去 筹资 建立 一 个 更 加 可 扩展 的 架构 。 对 于 其 他 的 一 些 应 用 ， 
你 可 能 需要 当前 的 架构 能 够 为 未 来 两 年 提供 足够 的 容量 。 


以 下 问题 可 以 帮助 规划 可 扩展 性 : 


。 应 用 的 功能 完成 了 多 少 ? 许多 建议 的 可 扩展 性 解决 方案 可 能 会 导 
致 实现 某 些 功 能 变 得 更 加 困难 。 如 果 应 用 的 某 些 核心 功能 还 没有 
开始 实现 ， 就 很 难看 出 如 何在 一 个 可 扩展 的 应 用 中 实现 它们 。 同 
样 地 ， 在 知道 这 些 特 性 如 何 真实 地 工作 之 前 也 很 难 决定 使 用 哪 一 
种 可 扩展 性 解决 方案 。 

。 预期 的 最 大 负载 是 多 少 ? 应 用 应 当 在 最 大 负载 下 也 可 以 正常 工 
作 。 如 果 你 的 网 站 和 Yahoo! News 或 者 Slashdot 的 首页 一 样 ， 会 发 


生 什么 呢 ? 即 使 不 是 很 热门 的 网 站 ， 也 同样 有 最 高 负载 。 比 如 ， 
对 于 一 个 在 线 零售 商 ， 假 日 期 间 一 一 尤其 是 在 圣诞 前 的 几 个 星期 
一 一 通常 是 负载 达到 王峰 的 时 候 。 在 美国 ,情人 节 和 和 母 杀 节 前 的 
周末 对 于 在 线 花 店 来 说 也 是 负载 高 峰 期 。 

如 果 依赖 系统 的 每 个 部 分 来 分 担负 载 ， 在 某 个 部 分 失效 时 会 发 生 
Ale? 例如 ， 如 果 依 赖 备 库 来 分 担 读 负 载 ， 当 其 中 一 个 失效 
时 ， 是 否 还 能 正音 处 理 请 求 ”是 否 需要 茶 用 一 些 功能 ”可 以 预先 
准备 一 些 空 闪 容量 来 防范 这 种 问题 。 


11.2.2 ”为 扩展 赢得 时 间 


在 理想 情况 下 ， 应 该 是 计划 先行 、 拥 有 足够 的 开发 者 、 有 人 花 不 完 
的 预算 ， 等 等 。 但 现实 中 这 些 情况 会 很 复杂 ， 在 扩展 应 用 时 常常 需 
做 一 些 妥 协 ， 特 别 是 需要 把 对 系统 大 的 改动 推迟 一 段 时 间 再 执行 。 在 
深入 MySQL 扩 展 的 细节 前 ， 以 下 是 一 些 可 以 做 的 准备 工作 : 


优化 性 能 


很 多 时 候 可 以 通过 一 个 简单 的 改动 来 获得 明显 的 性 能 提升 ， 
例如 为 表 建 立正 确 的 索引 或 从 MyISAM 切 换 到 InnoDB 存 储 引 擎 。 
如 果 遇 到 了 性 能 限制 ， 可 以 打开 查询 日 志 进 行 分 析 ， 详 情 请 参阅 
第 3 章 。 

在 修复 了 大 多 数 主要 的 问题 后 ， 会 到 达 一 个 收益 递减 点 ， 这 


时 候 提 升 性 能 会 变 得 越 来 越 困 难 。 每 个 新 的 优化 都 可 能 耗费 更 多 
的 精力 但 只 有 很 小 的 提升 ， 并 会 使 应 用 更 加 复杂 。 


购买 性 能 更 强 的 硬件 


升级 或 增加 服务 器 在 某 些 场景 下 行 之 有 效 ， 特 别 是 对 处 于 软 
件 生命 周期 早期 的 应 用 ， 购 买 更 多 的 服务 器 或 者 增加 内 存 通常 是 
个 好 办 法 。 另 一 个 选择 是 尽量 在 一 台 服 务 器 上 运行 应 用 程序 。 比 
起 修改 应 用 的 设计 ， 购 买 更 多 的 硬件 可 能 是 更 实际 的 办 法 ， 特 别 
是 时 间 紧 急 并 且 缺 之 开发 者 的 时 候 。 


如 果 应 用 很 小 或 者 被 设计 为 便于 利用 更 多 的 硬件 ， 那 么 购买 更 多 
的 硬件 应 该 是 行 之 有 效 的 办 法 。 对 于 新 应 用 这 是 很 普遍 的 ， 因 为 它们 
通常 很 小 或 者 设计 合理 。 但 对 于 大 型 的 旧 应 用 ， 购 买 更 多 硬件 可 能 没 
什么 效果 ， 或 者 代价 太 高 。 服 务 器 从 1 人 台 增加 到 3 人 台 或 许 算 不 了 什么 ， 
但 从 100 台 增加 到 300 台 就 是 另外 一 回 事 了 一 一 代价 非常 昂贵 。 如 果 是 
这 样 ， 花 一 些 时 间 和 精力 来 尽 可 能 地 提升 现 有 系统 的 性 能 就 很 划算 。 


11.2.3 ”向 上 扩展 


向 上 扩展 《有 时 也 称 为 垂直 扩展 ) 意味 着 购买 更 多 性 能 强悍 的 硬 
件 ， 对 很 多 应 用 来 说 这 是 唯一 需要 做 的 事情 。 这 种 策略 有 很 多 好 处 。 
例如 ， 单 台 服 务 器 比 多 台 服 务 器 更 加 容易 维护 和 开发 ， 能 显著 节约 开 
销 。 在 单 台 服 务 器 上 备份 和 恢复 应 用 同样 很 简单 ， 因 为 无 须 关心 一 致 
性 或 者 哪个 数据 集 是 权威 的 。 当 然 ， 还 有 一 些 别 的 原因 。 从 复杂 性 的 
成 本 来 说 ， 向 上 扩展 比 向 外 扩展 更 简单 。 


向 上 扩展 的 空间 其 实 也 很 大 。 拥 有 0.5TB 内 存 、32 核 (或 者 更 多 ) 
CPU 以 及 更 强悍 IO 性 能 的 (例如 PCIe 卡 的 flash 存 储 ) 商用 服务 器 现在 


很 容易 获得 。 优 秀 的 应 用 和 数据 库 设 计 ， 以 及 很 好 的 性 能 优化 技能 ， 
可 以 帮助 你 在 这 样 的 服务 器 上 建立 一 个 MySQL 大 型 应 用 。 


在 现代 硬件 上 MySQL 能 扩展 到 多 大 的 规模 呢 ? 尽管 可 以 在 非常 强 
大 的 服务 器 上 运行 ， 但 和 大 多 数 数据 库 服 务 器 一 样 ， 在 增加 硬件 资源 
的 情况 下 MySQL 也 无 法 很 好 地 扩展 (非常 奇怪 ! ) 。 为 了 更 好 地 在 大 
型 服务 器 上 运行 MySQL ， 一 定 要 尽量 选择 最 新 的 版 本 。 由 于 内 部 可 扩 
展 性 问题 ，MySQL 5.0 和 5.1 在 大 型 硬件 里 的 表现 并 不 理想 。 建 议 使 用 
MySQL 5.5 或 者 更 新 的 版 本 ， 或 者 Percona Server 5.1 及 后 续 版 本 。 即 便 
如 此 ， 当 前 合理 的 “收益 递 碱 点 ”的 机 器 配置 大 约 是 256GB RAM，32 核 
CPU 以 及 一 个 PCIe flash 驱 动 器 。 如 果 继 续 提升 硬件 的 配置 ，MySQL 的 
性 能 虽然 还 能 有 所 提升 ， 但 性 价 比 就 会 降低 ， 实 际 上 ， 在 更 强大 的 系 
统 上 ， 也 可 以 通过 运行 多 个 小 的 MySQL 实 例 来 替代 单个 大 实例 ， 这 样 
可 以 获得 更 好 的 性 能 。 当 然 ， 机 器 配置 的 变化 速度 非常 快 ， 这 个 建议 
也 许 很 快 就 会 过 时 了 。 


向 上 扩展 的 策略 能 够 顶 一 段 时 间 ， 实 际 很 多 应 用 是 不 会 达到 天 人 花 
板 的 。 但 是 如 果 应 用 变 得 非常 庞大 鸟 ， 向 上 扩展 可 能 就 没有 办 法 了 。 
第 一 个 原因 是 钱 ， 无 论 服务 器 上 运行 什么 样 的 软件 ， 从 某 种 角度 来 
看 ， 向 上 扩展 都 是 个 糟糕 的 财务 决策 ， 当 超出 硬件 能 够 提供 的 最 优 性 
价 比 时 ， 就 会 需要 非 同 寻 音 的 特殊 配置 的 硬件 ， 这 样 的 硬件 往往 非常 
昂贵 。 这 意味 着 能 向 上 扩展 到 什么 地 步 是 有 实际 的 限制 的 。 如 果 使 用 
了 复制 ， 那 么 当主 库 升 级 到 高 端 硬 件 后 ， 一 般 是 不 太 可 能 配置 出 一 台 
能 够 跟 上 主 库 的 强大 备 库 的 。 一 个 高 负载 的 主 库 通 常 可 以 承担 比 拥 有 
同样 配置 的 备 库 更 多 的 工作 ， 因 为 备 库 的 复制 线程 无 法 高 效 地 利用 多 
核 CPU 和 磁盘 资源 。 


最 后 ， 向 上 扩展 不 是 无 限制 的 ， 即 使 最 强大 的 计算 机 也 有 限制 。 
单 服务 器 应 用 通常 会 首先 达到 读 限制 ， 特 别 是 执行 复杂 的 读 查 询 时 。 
类 似 这 样 的 查询 在 MySQL 内 部 是 单线 程 的 ， 因 此 只 能 使 用 一 个 CPU， 
这 种 情况 下 花 钱 也 无 法 提升 多 少 性 能 。 即 使 购买 最 快 的 CPU 也 仅仅 会 
是 商用 CPU 的 几 倍速 度 。 增 加 更 多 的 CPU 或 CPU 核 数 并 不 能 使 慢 查 询 
执行 得 更 快 。 当 数据 变 得 庞大 以 至 于 无 法 有 效 缓存 时 ， 内 存 也 会 成 为 
瓶颈 ， 这 通常 表现 为 很 高 的 磁盘 使 用 率 ， 而 磁盘 是 现代 计算 机 中 最 慢 
的 部 分 。 


无 法 使 用 向 上 扩展 最 明显 的 场景 是 云 计 算 。 在 大 多 数 公 有 云 中 都 
无 法 获得 性 能 非常 强 的 服务 器 ， 如 果 应 用 肯定 会 变 得 非常 庞大 ， 就 不 
能 选择 向 上 扩展 的 方式 。 在 第 13 章 我 们 会 深入 这 个 话题 。 


因此 ， 我 们 建议 ， 如 果 系 统 确实 有 可 能 碰 到 可 扩展 性 的 天 人 花 板 ， 
并 且 会 导致 严重 的 业务 问题 ， 那 束 不 要 无 限制 地 做 向 上 扩展 的 规划 。 
如 果 你 知道 应 用 会 变 得 很 上 庞大， 在 实现 另外 一 种 解决 方案 前 ， 短 期 内 
购买 更 优 的 服务 器 是 可 以 的 。 但 是 最 终 还 是 需要 向 外 扩展 ， 这 也 是 下 
一 节 我 们 要 讲述 的 主题 。 


11.2.4 ”向 外 扩展 


可 以 把 向 外 扩展 (有 时 也 称 为 横向 扩展 或 者 水 平 扩展 ) 策略 划分 
为 三 个 部 分 : 复制 、 拆 分 ， 以 及 数据 分 片 (sharding) 。 


最 简单 也 最 常见 的 向 外 扩展 的 方法 是 通过 复制 将 数据 分 发 到 多 个 
服务 器 上 ， 然 后 将 备 库 用 于 读 查 询 。 这 种 技术 对 于 以 读 为 主 的 应 用 很 
有 效 。 它 也 有 一 些 缺 点 ， 例 如 重复 缓存 ， 但 如 果 数 据 规模 有 限 这 就 不 


是 问题 。 关 于 这 些 问题 我 们 在 前 一 章 已 经 讨论 得 足够 多 ， 后 面 会 继续 


提 到 。 


另外 一 个 比较 常见 的 向 外 扩展 方法 是 将 工作 负载 分 布 到 多 个 “ 节 
Ro 具体 如 何 分 布 工 作 负 载 是 一 个 复杂 的 话题 。 许 多 大 型 的 MySQL 
应 用 不 能 自动 分 布 负 载 ， 就 算 有 也 没有 做 到 完全 的 自动 化 。 本 节 我 们 
会 讨论 一 些 可 能 的 分 布 负载 的 方案 ， 并 探讨 它们 的 优点 和 缺点 。 


在 MySQL 架 构 中 ， 一 个 节点 (node) 就 是 一 个 功能 部 件 。 如 果 没 
有 规划 宛 余 和 高 可 用 性 ， 那 么 一 个 节点 可 能 就 是 一 台 服 务 器 。 如 果 设 
计 的 是 能 够 故障 转移 的 宛 余 和 系统， 那么 一 个 节点 通常 可 能 是 下 面 的 某 
一 种 : 


一 个 主 一 主 复 制 双 机 结构 ， 拥 有 一 个 主动 服务 器 和 被 动 服务 器 。 
一 个 主 库 和 多 个 备 库 。 

一 个 主动 服务 器 ， 并 使 用 分 布 式 复制 块 设备 (DRBD) 作为 备用 
服务 器 。 

一 个 基于 存储 区 域 网 络 (SAN) 的 “集群 ”。 


大 多 数 情 况 下 ， 一 个 节点 内 的 所 有 服务 器 应 该 拥有 相同 的 数据 。 
我 们 倾向 于 把 主 一 主 复制 染 构 作为 两 台 服 务 器 的 主动 一 被 动 节 点 。 


1. 按 功能 拆 分 
按 功能 拆 分 ， 或 者 说 按 职责 拆 分 ， 意 味 着 不 同 的 节点 执行 不 同 的 


任务 。 我 们 之 前 已 经 提 到 了 一 些 类 似 的 实现 ， 在 前 一 章 我 们 描述 了 如 
何 为 OLTP 和 OLAP 工 作 负 载 设计 不 同 的 服务 器 。 按 功能 拆 分 采取 的 策 


略 比 这 些 更 进一步 ， 将 独立 的 服务 器 或 节点 分 配给 不 同 的 应 用 ， 这 样 
每 个 节点 只 包含 它 的 特定 应 用 所 需要 的 数据 。 


这 里 我 们 显 式 地 使 用 了 “应 用 ”一 词 。 所 指 的 并 不 是 一 个 单独 的 计 
算 机 程序 ， 而 是 相关 的 一 系列 程序 ， 这 些 程序 可 以 很 容易 地 彼此 分 
离 ， 没 有 关联 。 例 如 ， 如 果 有 一 个 网 站 ， 各 个 部 分 无 须 共享 数据 ， 那 
么 可 以 按照 网 站 的 功能 区 域 进行 划分 。 门 尸 网 站 弟 党 把 不 同 的 栏目 放 
在 一 起 ; 在 门户 网 站 ， 可 以 浏览 网 站 新 闻 、 论 坛 ， 寻 求 支持 和 访问 知 
识 库 ， 等 寺 。 这 些 不 同 功能 区 域 的 数据 可 以 放 到 专用 的 MySQL 服 务 器 
中 ， 如 图 11-5 所 示 。 


论坛 新 闻 支持 


图 11-5: 一 个 门户 网 站 以 及 专用 于 不 同 功 能 区 域 的 节点 


如 果 应 用 很 庞大 ， 每 个 功能 区 域 还 可 以 拥有 其 专用 的 Web 服 务 
器 ， 但 没有 专用 的 数据 库 服 务 器 这 么 单 见 。 


另 一 个 可 能 的 按 功 能 划分 方法 是 对 单个 服务 器 的 数据 进行 划分 ， 
并 确保 划分 的 表 集 合 之 间 不 会 执行 天 联 操作 。 当 必须 执行 关联 操作 
时 ， 如 果 对 性 能 要 求 不 高 ， 可 以 在 应 用 中 做 关联 。 虽 然 有 一 些 变通 的 
方法 ， 但 它们 有 一 个 共同 点 ， 就 是 每 种 类 型 的 数据 只 能 在 单个 节点 上 


找到 。 这 并 不 是 一 种 通用 的 分 布 数据 方法 ， 因 为 很 难 做 到 高 效 ， 并 且 
相 比 其 他 方案 没有 任何 优盘。 


归根 结 底 ， 还 是 不 能 通过 功能 划分 来 无 限 地 进行 扩展 ， 因 为 如 果 
一 个 功能 区 域 被 捆绑 到 单个 MySQL 节 点 ， 就 只 能 进行 垂直 扩展 。 其 中 
的 一 个 应 用 或 者 功能 区 域 最 终 增长 到 非常 庞大 时 ， 都 会 迫使 你 去 寻求 
一 个 不 同 的 策略 。 如 果 进 行 了 太 多 的 功能 划分 ， 以 后 就 很 难 采 用 更 具 
扩展 性 的 设计 了 。 


2. 数据 分 片 


在 目前 用 于 扩展 大 型 MySQL 应 用 的 方案 中 ， 数 据 分 片 中 是 最 通用 
且 最 成 功 的 方法 。 它 把 数据 分 割 成 一 小 片 ， 或 者 说 一 块 ， 然 后 存储 到 
不 同 的 节点 中 。 


数据 分 片 在 和 某 些 类 型 的 按 功能 划分 联合 使 用 时 非常 有 用 。 大 多 
数 分 片 系统 也 有 一 些 “ 全 局 的 ”数据 不 会 被 分 片 (例如 城市 列表 或 者 登 
录 数 据 ) 。 全 局 数据 一 般 存储 在 单个 节点 上 ， 并 且 通 常 保存 在 类 似 
memcached 这 样 的 缓存 里 。 


事实 上 ， 大 多 数 应 用 只 会 对 需要 的 数据 做 分 片 一 一 通常 是 那些 将 
会 增长 得 非常 庞大 的 数据 。 假 设 正 在 构建 的 博客 服务 ， 预 计 会 有 1000 
万 用 户 ， 这 时 候 就 无 须 对 注册 用 户 进 行 分 片 ， 因 为 完全 可 以 将 所 有 的 
AP (或 者 其 中 的 活路 用户) 放 到 内 存 中 。 假 如 用 户 数 达到 5 亿 ， 那 么 
就 可 能 需要 对 用 户 数据 分 片 。 用 户 产生 的 内 容 ， 例 如 发 表 的 文章 和 评 
论 ， 几 乎 肯定 需要 进行 数据 分 片 ， 因 为 这 些 数 据 非 常 庞大， 并且 还 会 
越 来 越 多 。 


大 型 应 用 可 能 有 多 个 逻辑 数据 集 ， 并 且 处 理 方式 也 可 以 各 不 相 
同 。 可 以 将 它们 存储 到 不 同 的 服务 器 组 上 ， 但 这 并 不 是 必需 的 。 还 可 
以 以 多 种 方式 对 数据 进行 分 片 ， 这 取决 于 如 何 使 用 它们 。 下 文 我 们 会 
举例 说 明 。 


分 片 技术 和 大 多 数 应 用 的 最 初 设计 有 着 显著 的 差异 ， 并 且 很 难 将 
应 用 从 单一 数据 存储 转换 为 分 片 架构 。 如 果 在 应 用 设计 初期 就 已 经 预 
计 到 分 片 ， 那 实现 起 来 就 容易 得 多 。 


许多 一 开始 没有 建立 分 片 架构 的 应 用 都 会 碰 到 规模 扩大 的 情形 。 
例如 ， 可 以 使 用 复制 来 扩展 博客 服务 的 读 查 询 ， 直 到 它 不 再 奏效 。 然 
后 可 以 把 服务 器 划分 为 三 个 部 分 : 用 户 信息 、 文 章 ， 以 及 评论 。 可 以 
将 这 些 数 据 放 到 不 同 的 服务 器 上 〈 按 功能 划分 ) ， 也 许可 以 使 用 面向 
服务 的 架构 ， 并 在 应 用 层 执 行 联合 查询 。 图 11-6 显 示 了 从 单 台 服务 器 
到 按 功能 划分 的 演变 。 


图 11-6: 从 单个 实例 到 按 功能 划分 的 数据 存储 


最 后 ， 可 以 通过 用 户 ID 来 对 文章 和 评论 进行 分 片 ， 而 将 用 户 信 息 
保留 在 单个 节点 上 。 如 果 为 全 局 节点 配置 一 个 主 一 备 结构 并 为 分 片 节 
所 使 用 主 一 主 结构 ， 最 终 的 数据 存储 可 能 如 图 11-7 所 示 。 
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图 11-7: 一 个 全 局 节点 和 六 个 主 一 主 结构 节点 的 数据 存储 方式 


如 果 事 先知 道 应 用 会 扩大 到 很 大 的 规模 ， 并 且 清 楚 按 功能 划分 的 
局 限 性 ， 束 可 以 跳 过 中 间 步 骤 ， 直接 从 单个 节点 升级 为 分 片 数据 存 
储 。 事 实 上 ， 这 种 前 瞻 性 可 以 帮 你 避免 由 于 粗糙 的 分 片 方案 这 来 的 挑 
战 。 


采用 分 片 的 应 用 常会 有 一 个 数据 库 访 问 抽象 层 ， 用 以 降低 应 用 和 
分 片 数 据 存储 之 间 通 信和 的 复杂 度 ， 但 无 法 完全 隐藏 分 片 。 因 为 相 比 数 
据 存 储 ， 应 用 通常 更 了 解 跟 查询 相关 的 一 些 信息 。 太 多 的 抽象 会 导 宇 
低 效 率 ， 例 如 查询 所 有 的 节点 ， 可 实际 上 需要 的 数据 只 在 单一 节点 
E, 


分 片 数据 存储 看 起 来 像 是 优雅 的 解决 方案 ， 但 很 难 实现 。 那 为 什 
么 要 选择 这 个 架构 呢 ? 答案 很 简单 : 如 果 想 扩展 写 容量 ， 就 必须 切 分 
数据 。 如 果 只 有 单 台 主 库 ， 那 么 不 管 有 多 少 备 库 ， 写 容量 都 是 无 法 扩 
展 的 。 对 于 上 述 缺点 而 言 ， 数 据 分 片 是 我 们 首选 的 解决 方案 。 


DA? 还 是 不 分 片 ? 


这 


首先 看 


一 个 问题 ， 对 吧 ? 答案 很 简单 : 如 非 必要 ， 尽 量 不 分 片 。 
否 能 通过 性 能 调 优 或 者 更 好 的 应 用 或 数据 库 设 计 来 推迟 分 


= 
Ze 
= 
Ze 


片 。 如 果 能 足够 长 时 间 地 推迟 分 片 ， 也 许可 以 直接 购买 更 大 的 服务 
器 ， 升 级 MySQL 到 性 能 更 优 的 版 本 ， 然 后 继续 使 用 单 台 服务 器 ， 也 
可 以 增加 或 减少 复制 。 


简单 的 说 ， 对 单 台 服 务 器 而 言 ， 数 据 大 小 或 写 负载 变 得 太 大 
时 ,分 片 将 是 不 可 避免 的 。 如 果 不 分 片 ， 而 是 尽 可 能 地 优化 应 用 ， 
系统 能 扩展 到 什么 程度 呢 ? 答案 可 能 会 让 你 很 惊讶 。 有 些 非常 受 欢 
迎 的 应 用 ， 你 可 能 以 为 从 一 开始 就 分 片 了 ， 但 实际 上 直到 已 经 值 数 
十 亿美 元 并 且 流 量 极 其 巨大 也 还 没有 采用 分 片 的 设计 。 分 片 不 是 城 
里 唯一 的 游戏 ， 在 没有 必要 的 情况 下 采用 分 片 的 架构 来 构建 应 用 会 
步履 维 艰 。 


3。 选 择 分 区 键 (partitioning key) 


数据 分 片 最 大 的 挑战 是 查找 和 获取 数据 : 如 何 查 找 数据 取决 于 如 
何 进行 分 片 。 有 很 多 方法 ， 其 中 有 一 些 方法 会 比 另 外 一 些 更 好 。 


我 们 的 目标 是 对 那些 最 重要 并 且 频 繁 查询 的 数据 减少 分 片 Og 
住 ， 可 扩展 性 法 则 的 其 中 一 条 就 是 要 避免 不 同 节点 间 的 交互 ) 。 这 其 
中 最 重要 的 是 如 何 为 数据 选择 一 个 或 多 个 分 区 键 。 分 区 键 决定 了 每 一 
行 分 配 到 哪 一 个 分 片 中 。 如 果 知 道 一 个 对 象 的 分 区 键 ， 就 可 以 回答 如 
下 两 个 问题 : 


。 应 该 在 哪里 存储 数据 ? 
。 应 该 从 哪里 取 到 希望 得 到 的 数据 ? 


后 面 将 展示 多 个 选择 和 使 用 分 区 键 的 方法 。 先 看 一 个 例子 。 假 设 
像 MySQL NDB Cluster 那 样 来 操作 ， 并 对 每 个 表 的 主键 使 用 哈 希 来 将 
数据 分 割 到 各 个 分 片 中 。 这 是 一 种 非常 简单 的 实现 ， 但 可 扩展 性 不 
好 ， 因 为 可 能 需要 频繁 检查 所 有 分 片 来 获得 需要 的 数据 。 例 如 ， 如 果 
想 查 看 user3 的 博客 文章 ， 可 以 从 哪里 找到 呢 ? 由 于 使 用 主键 值 而 非 用 
户 名 进行 分 割 ， 博 客 文章 可 能 均匀 分 散在 所 有 的 数据 分 片 中 。 使 用 主 
键 值 哈 希 简化 了 判断 数据 存储 在 何 处 的 操作 ， 但 却 可 能 增加 获取 数据 
的 难度 ， 具 体 取决 于 需要 什么 数据 以 及 是 否 知道 主键 。 


跨 多 个 分 片 的 查询 比 单个 分 片上 的 查询 性 能 要 差 ， 但 只 要 不 涉及 
太 多 的 分 片 ， 也 不 会 太 糟 糕 。 最 糟糕 的 情况 是 不 知道 需要 的 数据 存储 
在 哪里 ， 这 时 候 就 需要 扫描 所 有 分 片 。 


一 个 好 的 分 区 键 常 常 是 数据 库 中 一 个 非常 重要 的 实体 的 主键 。 这 
些 键 值 决定 了 分 片 单元 。 例 如 ， 如 果 通 过 用 户 ID 或 客户 端 ID 来 分 割 数 
据 ， 分 片 单元 就 是 用 户 或 者 客户 端 。 


确定 分 区 键 一 个 比较 好 的 办 法 是 用 实体 一 关系 图 ， 或 一 个 等 效 的 
能 显示 所 有 实体 及 其 天 系 的 工具 来 展示 数据 模型 。 尽 量 把 相关 联 的 实 
体 靠 得 更 近 。 这 样 可 以 很 直观 地 找 出 候选 分 区 键 。 当 然 不 要 仪 仅 看 
图 ， 同 样 也 要 考虑 应 用 的 查询 。 即 使 两 个 实体 在 某 些 方面 是 相关 联 
的 ， 但 如 果 很 少 或 几乎 不 对 其 做 关联 操作 ， 也 可 以 打 断 这 种 联系 来 实 
现 分 片 。 


某 些 数据 模型 比 其 他 的 更 容易 进行 分 片 ， 具 体 取决 于 实体 一 关系 
图 中 的 关联 性 程度 。 图 11-8 的 左边 展示 了 一 个 易于 分 片 的 数据 模型 ， 
右边 的 那个 则 很 难 分 片 。 


图 11-8 : 两 个 数据 模型 ， 一 个 易于 分 片 ， 另 一 个 则 难以 分 片 


左边 的 数据 模型 比较 容易 分 片 ， 因 为 与 之 相连 的 子 图 中 大 多 数 节 
点 只 有 一 个 连接 ， 很 容易 切断 子 图 之 间 的 联系 。 右 边 的 数据 模型 则 很 
难 分 片 ， 因 为 它 没有 类 似 的 子 图 。 笠 好 大 多 数 数 据 模型 更 像 左边 的 
名。 


选择 分 区 键 的 时 候 ， 尽 可 能 选择 那些 能 够 避免 跨 分 片 查询 的 ， 但 
同时 也 要 让 分 片 足够 小 ， 以 免 过 大 的 数据 片 导 致 问题 。 如 果 可 能 ， 应 
该 期 望 分 片 尽 可 能 同样 小 ， 这 样 在 为 不 同 数量 的 分 片 进行 分 组 时 能 够 
很 容易 平衡 。 例 如 ， 如 果 应 用 只 在 美国 使 用 ， 并 且 希 望 将 数据 集 分 割 
为 20 个 分 片 ， 则 可 能 不 应 该 按照 州 来 划分 ， 因 为 加 利 福 尼 亚 的 人 口 非 
单 多 。 但 可 以 按照 县 或 者 电话 区 号 来 划分 ， 因 为 尽管 并 不 是 均匀 分 布 
的 ， 但 足以 选择 20 个 集合 以 粗略 地 表示 等 同 的 密集 程度 ， 并 且 基 本 上 
避免 跨 分 片 查询 。 


4. 多 个 分 区 键 


复杂 的 数据 模型 会 使 数据 分 片 更 加 困难 。 许 多 应 用 拥有 多 个 分 区 
键 ， 特 别 是 存在 两 个 或 更 多 个 “维度 ”的 时 候 。 换 句 话说 ， 应 用 需要 从 
不 同 的 角度 看 到 有 效 且 连贯 的 数据 视图 。 这 意味 着 某 些 数据 在 系统 内 
至 少 需 要 存储 两 份 。 


例如 ， 需 要 将 博客 应 用 的 数据 按照 用 户 人 D 和 文章 ID 进 行 分 片 ， 因 
为 这 两 者 都 是 应 用 查询 数据 时 使 用 比较 普遍 的 方式 。 试 想 一 下 这 种 情 
AZ: 频繁 地 读 取 某 个 用 户 的 所 有 文章 ， 以 及 某 个 文章 的 所 有 评论 。 如 
果 按 用 户 分 片 就 无 法 找到 某 篇 文章 的 所 有 评论 ， 而 按 文章 分 片 则 无 法 
找到 某 个 用 户 的 所 有 文章 。 如 果 希 望 这 两 个 查询 都 落 到 同一 个 分 片 
上 ， 就 需要 从 两 个 维度 进行 分 片 。 


需要 多 个 分 区 键 并 不 意味 着 需要 去 设计 两 个 完全 见 余 的 数据 存 
储 。 我 们 来 看 看 另 一 个 例子 : 一 个 社交 网 站 下 的 读书 俱乐部 站 点 ， 该 
站 点 的 所 有 用 户 都 可 以 对 书 进行 评论 。 该 网 站 可 以 显示 所 有 书籍 的 所 
有 评论 ， 也 能 显示 某 个 用 户 已 经 读 过 或 评论 过 的 所 有 书籍 。 


假设 为 用 户 数 据 和 书籍 数据 都 设计 了 分 片 数 据 存储 。 而 评论 同时 
拥有 用 户 ID 和 评论 ID， 这 样 就 跨越 了 两 个 分 片 的 边界 。 实 际 上 却 无 须 
风 余 存储 两 份 评论 数据 ， 替 代 方 案 是 ， 将 评论 和 用 户 数据 一 起 存储 ， 
然后 把 每 个 评论 的 标题 和 ID 与 书籍 数据 存储 在 一 起 。 这 样 在 泻 染 大 多 
数 关 于 某 本 书 的 评论 的 视图 时 无 须 同时 访问 用 户 和 书籍 数据 存储 ， 如 
果 需 要 显示 完整 的 评论 内 容 ， 可 以 从 用 户 数据 存储 中 获得 。 


5。 跨 分 片 查询 


大 多 数 分 片 应 用 多 少 都 有 一 些 查询 需要 对 多 个 分 片 的 数据 进行 聚 
合 或 关联 操作 。 例 如 ， 一 个 读书 俱乐部 网 站 要 显示 最 受 欢 迎 或 最 活跃 
的 用 户 ， 就 必须 访问 每 一 个 分 片 。 如 何 让 这 类 查询 很 好 地 执行 ， 是 实 
现 数据 分 片 的 架构 中 最 困难 的 部 分 。 虽 然 从 应 用 的 角度 来 看 ， 这 是 一 
条 查询 ， 但 实际 上 需要 拆 分 成 多 条 并 行 执行 的 查询 ， 每 个 分 片上 执行 
一 条 。 一 个 设计 良好 的 数据 库 抽象 层 能 够 减轻 这 个 问题 ， 但 类 似 的 查 
询 仍然 会 比分 片 内 查询 要 慢 并 且 更 加 昂贵 ， 所 以 通常 会 更 加 依赖 组 
存 。 


一 些 语言 ， 如 PHP， 对 并 行 执行 多 条 碍 询 的 支持 不 够 好 。 普 远 的 
做 法 是 使 用 C 或 Java 编 写 一 个 辅助 应 用 来 执行 查询 并 聚合 结果 集 。PHP 
应 用 只 需要 查询 该 辅助 应 用 即 可 ， 例 如 Web 服 务 或 者 类 似 Gearman 的 工 
作者 服务 。 


过 分 卢 碍 询 也 可 以 借助 汇总 表 来 执行 。 可 以 饥 历 所 有 分 片 来 生成 
汇总 表 并 将 结果 在 每 个 分 片上 见 余 存储 。 如 果 在 每 个 分 片上 存储 重复 
数据 太 过 浪费 ， 也 可 以 把 汇总 表 放 到 另外 一 个 数据 存储 中 ， 这 样 就 只 
需要 存储 一 份 了 。 


未 分 片 的 数据 通常 存储 在 全 局 节点 中 ， 可 以 使 用 缓存 来 分 担负 
载 。 


如 果 数 据 的 均衡 分 布 非常 重要 ， 或 者 没有 很 好 的 分 区 键 ， 一 些 应 
用 会 采用 随机 分 片 的 方式 。 分 布 式 检索 应 用 就 是 个 很 好 的 例子 。 这 种 
场景 下 ， 跨 分 片 查询 和 聚合 查询 非常 常见。 跨 分 片 查询 并 不 是 数据 分 
片面 临 的 唯一 难题 。 维 护 数据 一 致 性 同样 困难 。 外 键 无 法 在 分 片 间 工 
作 ， 因 此 需要 由 应 用 来 检查 参照 一 致 性 ， 或 者 只 在 分 片 内 使 用 外 键 ， 


因为 分 片 内 的 内 部 一 致 性 可 能 是 最 重要 的 。 还 可 以 使 用 XA 事 务 ， 但 由 
于 开销 太 大 ， 现 实 中 使 用 很 少 。 


还 可 以 设计 一 些 定期 执行 的 清理 过 程 。 例 如 ， 如 果 一 个 用 户 的 读 
书 俱乐部 账号 到 期 ， 并 不 需要 立刻 将 其 移 除 。 可 以 写 一 个 定期 任务 将 
用 户 评论 从 每 个 书籍 分 片 中 移 除 。 也 可 以 写 一 个 检查 脚本 周期 性 运行 
以 确保 分 片 间 的 数据 一 致 性 。 


6. DACRE. DAA RA 


分 片 和 节点 不 一 定 是 一 对 一 的 关系 ， 应 该 尽 可 能 地 让 分 片 的 大 小 
比 节 点 容量 小 很 多 ， 这 样 就 可 以 在 单个 节点 上 存储 多 个 分 片 。 


保持 分 片 足 够 小 更 容易 管理 。 这 将 使 数据 的 备份 和 恢复 更 加 容 
易 ， 如 果 表 很 小 ， 那 么 像 更 改 表 结 构 这 样 的 操作 会 更 加 容易 。 例 如 ， 
假设 有 一 个 100GB 的 表 ， 你 可 以 直接 存储 ， 也 可 以 将 其 划分 为 100 个 
1GB 的 分 片 ， 并 存储 在 单个 节点 上 。 现 在 假如 要 向 表 上 增加 一 个 索 
引 ， 在 单个 100GB 的 表 上 的 执行 时 间 会 比 100 个 1GB 分 片上 执行 的 总 时 
间 更 长 ， 因 为 1GB 的 分 片 更 容易 全 部 加 载 到 内 存 中 。 并 且 在 执行 
ALTER TABLE 时 还 会 导致 数据 不 可 用 ， 阻 塞 1GB 的 数据 比 阻塞 100GB 
的 数据 要 好 得 多 。 


小 一 点 的 分 片 也 便于 转移 。 这 有 助 于 重新 分 配 容量 ， 平 衡 各 个 节 
点 的 分 片 。 转 移 分 片 的 效率 一 般 都 不 高 。 通 单 需要 先 将 受 影响 的 分 片 
设置 为 只 读 模式 (这 也 是 需要 在 应 用 中 构建 的 特性 ) ， 提 取 数 据 ， 然 
后 转移 到 另外 一 个 节点 。 这 包括 使 用 mysqldump 获 取 数 据 然后 使 用 


mysql 命 令 将 其 重新 导入 。 如 果 使 用 的 是 Percona Server ， 可 以 通过 
XtraBackup 在 服务 器 间 转 移 文 件 ， 这 比 转 储 和 重新 载 入 要 高 效 得 多 。 


除了 在 节点 间 移 动 分 片 ， 你 可 能 还 需要 考虑 在 分 片 间 移 动 数 据 ， 
并 尽量 不 中 断 整 个 应 用 提供 服务 。 如 果 分 片 太 大 ， 就 很 难 通过 移动 整 
个 分 片 来 平衡 容量 ， 这 时 候 可 能 需要 将 一 部 分 数据 (例如 一 个 用 户 ) 
转移 到 其 他 分 片 。 分 片 间 转移 数据 比 转移 分 片 要 更 复杂 ， 应 该 尽量 避 
免 这 么 做 。 这 也 是 我 们 建议 设置 分 片 大 小 尽量 易于 管理 的 原因 之 一 。 


分 片 的 相对 大 小 取决 于 应 用 的 需求 。 简 单 的 说 ， 我 们 说 的 “易于 管 
理 的 大 小 ”是 指 保持 表 足 够 小 ， 以 便 能 在 5 或 10 分 钟 内 提供 日 常 的 维护 
工作 ， 例 如 ALTER TABLE、CHECK TABLE 或 者 OPTIMIZE TABLE。 


如 果 将 分 片 设置 得 太 小 ， 会 产生 太 多 的 表 ， 这 可 能 引发 文件 系统 
或 MySQL 内 部 结构 的 问题 。 另 外 太 小 的 分 片 还 会 导致 跨 分 片 查询 增 
多 。 


7。 在 节点 上 部 署 分 片 


需要 确定 如 何在 节点 上 部 署 数据 分 片 。 以 下 是 一 些 常用 的 办 法 : 


每 个 分 片 使 用 单一 数据 库 ， 并 且 数 据 库 名 要 相同 。 典 型 的 应 用 场 
景 是 需要 每 个 分 片 都 能 镜像 到 原 应 用 的 结构 。 这 在 部 署 多 个 应 用 
实例 ， 并 且 每 个 实例 对 应 一 个 分 片 时 很 有 用 。 

。 将 多 个 分 片 的 表 放 到 一 个 数据 库 中 ， 在 每 个 表 名 上 包含 分 片 号 
(例如 bookclub.comments_23) 。 这 种 配置 下 ， 单 个 数据 库 可 以 
支持 多 个 数据 分 片 。 


。 为 每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 中 包含 所 有 应 用 需要 的 
表 。 人 在 数据 库 名 中 包含 分 片 写 (例如 表 名 可 能 是 
bookclub_23.comments 或 者 bookclub_23.users 等 ) ， 但 表 名 不 包括 
分 片 号 。 当 应 用 连接 到 单个 数据 库 并 且 不 在 查询 中 指定 数据 库 名 
时 ， 这 种 做 法 很 常见 。 其 优点 是 无 须 为 每 个 分 片 专 门 编写 查询 ， 
也 便于 对 只 使 用 单个 数据 库 的 应 用 进行 分 片 。 

每 个 分 片 使 用 一 个 数据 库 ， 并 在 数据 库 名 和 表 名 中 包含 分 片 号 
(例如 表 名 可 以 是 bookclub_23.comments_23) o 

。 在 每 个 节点 上 运行 多 个 MySQL 实 例 ， 每 个 实例 上 有 一 个 或 多 个 分 

片 ， 可 以 使 用 上 面 提 到 的 方式 的 任意 组 合 来 安排 分 片 。 


如 果 在 表 名 中 包含 了 分 片 号 ， 就 需要 在 查询 模板 里 插入 分 片 号 。 
常用 的 方法 是 在 查询 中 使 用 特殊 的 “神奇 的 ” 占 位 符 ， 例 如 sprintf() 这 样 
的 格式 化 函数 中 的 %s， 或 者 使 用 变量 做 字符 串 插值 。 以 下 是 在 PHP 中 
创建 查询 模板 的 方法 : 


$sql = "SELECT book_id, book_title FROM 
bookclub_%d.comments_%d...|'; 
$res = mysql_query(sprintf($sql, $shardno, $shardno), 


$conn); 


也 可 以 就 使 用 字符 串 插值 的 方法 : 


$sql = "SELECT book_id, book_title FROM 
bookclub_$shardno.comments_$shardno..."; 


$res = mysql_query($sql, $conn); 


这 在 新 应 用 中 很 容易 实现 ， 但 对 于 已 有 的 应 用 则 有 点 困难 。 构 建 
新 应 用 时 ， 查 询 模板 并 不 是 问题 ， 我 们 倾向 于 使 用 每 个 分 片 一 个 数据 
库 的 方式 ， 并 把 分 片 号 写 到 数据 库 名 和 表 名 中 。 这 会 增加 例如 ALTER 
TABLE 这 类 操作 的 复杂 度 ， 但 也 有 如 下 一 些 优点 : 


。 如 果 分 片 全 部 在 一 个 数据 库 中 ， 转 移 分 片 会 比较 容易 。 

。 因为 数据 库 本 身 是 文件 系统 中 的 一 个 目录 ， 所 以 可 以 很 方便 地 管 
理 一 个 分 片 的 文件 。 

。 如 果 分 片 互 不 关联 ， 则 很 容易 查看 分 片 的 大 小 。 

。 全 局 唯一 表 名 可 避免 误 操作 。 如 果 表 名 每 个 地 方 都 相同 ， 很 容易 
因为 连接 到 错误 的 节点 而 查询 了 错误 的 分 片 ， 或 者 是 将 一 个 分 片 
的 数据 误导 入 另外 一 个 分 片 的 表 中 。 


你 可 能 想 知道 应 用 的 数据 是 否 具 有 某 种 “分 片 亲 和 性 ”。 也 许 将 某 
些 分 片 放 在 一 起 (在 同一 台 服 务 器 ， 同 一 个 子 网 ， 同 一 个 数据 中 心 ， 
或 者 同一 个 交换 网 络 中 ) 可 以 利用 数据 访问 模式 的 相关 性 ， 能 够 带 来 
些 好 处 。 例 如 ， 可 以 按照 用 户 进 行 分 片 ， 然 后 将 同一 个 国家 的 用 户 放 
到 同一 个 节 扣 的 分 片上 。 


为 已 有 的 应 用 增加 分 片 支持 的 结果 往往 是 一 个 节点 对 应 一 个 分 
片 。 这 种 简化 的 设计 可 以 减少 对 应 用 查询 的 修改 。 分 片 对 应 用 而 言 通 
单 是 一 种 颠覆 性 的 改变 ， 所 以 应 尽 可 能 简化 它 。 如 果 在 分 片 后 ， 每 个 
节点 看 起 来 就 像 是 整个 应 用 数据 的 缩 略 图 ， 就 无 须 去 改变 大 多 数 查 询 
或 担心 查询 是 否 传递 到 期 望 的 节点 。 


8. 固定 分 配 


将 数据 分 配 到 分 片 中 有 两 种 主要 的 方法 : 固定 分 配 和 动态 分 配 。 
两 种 方法 都 需要 一 个 分 区 函 效 ， 使 用 行 的 分 区 键 值 作 为 输入 ， 返 回 存 
储 该 行 的 分 片 。 包 


固定 分 配 使 用 的 分 区 函 效 仅 仅 依 赖 于 分 区 键 的 值 。 哈 硕 函 效 和 取 
模 运 算 就 是 很 好 的 例子 。 这 些 消 数 按照 每 个 分 区 键 的 值 将 数据 分 散 到 
一 定数 量 的 “ 桶 ”中 。 


假设 有 100 个 桶 ， 你 希望 弄 清楚 用 户 111 该 放 到 哪个 桶 里 。 如 果 使 
用 的 是 对 数字 求 模 的 方式 ， 答 案 很 简单 : 111 对 100 取 模 的 值 为 11， 所 
以 应 该 将 其 放 到 第 11 个 分 片 中 。 


而 如 果 使 用 CRC320 函 数 来 做 哈 硕 ， 答 案 是 81。 


mysql> SELECT CRC32(111) % 100; 


+------------------+ 
+------------------+ 


+------------------+ 


固定 分 配 的 主要 优点 是 简单 ， 开 销 低 ， 甚 至 可 以 在 应 用 中 直接 硬 
编码 。 


但 固定 分 配 也 有 如 下 缺点 : 


。 如 果 分 片 很 大 并 且 数 量 不 多 ， 束 很 难 平衡 不 同 分 片 间 的 负载 。 

。 固定 分 片 的 方式 无 法 目 定义 数据 放 到 哪个 分 片上 ， 这 一 点 对 于 那 
些 在 分 片 间 负载 不 均衡 的 应 用 来 说 尤其 重要 。 一 些 数 据 可 能 比 其 
他 的 更 加 活跃 ,如果 这 些 热点 数据 都 分 配 到 同一 个 分 片 中 ， 固 定 
分 配 的 方式 就 无 法 通过 热点 数据 转移 的 方式 来 平衡 负载 。 (如 果 


每 个 分 片 的 数据 量 切 分 得 比较 小 ， 这 个 问题 就 没 那么 严重 ， 根 据 
大 数 定律 ， 这 样 做 会 更 容易 将 热点 数据 平均 分 配 到 不 同 分 片 。) 
。 修改 分 片 梨 略 通 单 比较 困难 ， 因 为 需要 重新 分 配 已 有 的 数据 。 例 
如 ， 如 果 通 过 模 10 的 哈 希 水 数 来 进行 分 片 ， 就 会 有 10 个 分 片 。 如 
果 应 用 增长 使 得 分 片 变 大 ， 如 果 要 拆 分 成 20 个 分 片 ， 就 需要 对 所 
有 数据 重新 哈 希 ， 这 会 导致 更 新 大 量 数据 ， 并 在 分 片 间 转移 数 

据 。 


正 是 由 于 这 些 限制 ， 我 们 倾向 于 为 新 应 用 选择 动态 分 配 的 方式 。 
但 如 果 是 为 已 有 的 应 用 做 分 片 ， 使 用 固定 分 配 策略 可 能 会 更 容易 些 ， 
因为 它 更 简单 。 也 就 是 说 ， 大 多 数 使 用 固定 分 配 的 应 用 最 后 迟早 要 使 
FA DAA) Bc RBS. 


9. 动态 分 配 


另外 一 个 选择 是 使 用 动态 分 配 ， 将 每 个 数据 单元 映射 到 一 个 分 
片 。 假 设 一 个 有 两 列 的 表 ， 包 括 用 户 ID 和 分 片 ID。 


CREATE TABLE user_to_shard ( 
user_id INT NOT NULL, 
shard_id INT NOT NULL, 
PRIMARY KEY (user_id) 

) ; 


这 个 表 本 身 就 是 分 区 函数 。 给 定 分 区 键 (用 户 ID) 的 值 就 可 以 获 
得 分 卢 号 。 如 果 该 行 不 人 存在 ， 融 从 目标 分 片 中 找到 并 将 其 加 入 到 表 


中 。 也 可 以 推迟 更 新 一 一 这 就 是 动态 分 配 的 含义 。 


动态 分 配 增 加 了 分 区 函数 的 开销 ， 因 为 需要 额外 调用 一 次 外 部 资 
源 ， 例 如 目录 服务 器 (存储 映射 关系 的 数据 存储 节点 ) 。 出 于 效率 方 
面 的 考虑 ， 这 种 架构 弟弟 需要 更 多 的 分 层 。 例 如 ， 可 以 使 用 一 个 分 布 
式 缓存 系统 将 目录 服务 器 的 数据 加 载 到 内 存 中 ， 因 为 这 些 数 据 平时 改 
动 很 小 。 或 者 更 普遍 地 ， 你 可 以 直接 向 USERS 表 中 增加 一 个 shard_id 
列 用 于 存储 分 睫 号 。 


动态 分 配 的 最 大 好 处 是 可 以 对 数据 存储 位 置 做 细 粒 度 的 控制 。 这 
使 得 均衡 分 配 数据 到 分 片 更 加 容易 ， 并 可 提供 适应 未 知 改变 的 灵活 
性 。 


动态 映射 可 以 在 简单 的 键 一 分 片 (key-to-shard) 映射 的 基础 上 建 
立 多 层次 的 分 片 策略 。 例 如 ， 可 以 建立 一 个 双重 映射 ， 将 每 个 分 片 单 
元 指定 到 一 个 分 组 中 〈 例 如 ， 读 书 俱乐部 的 用 户 组 ) ， 然 后 尽 可 能 将 
这 些 组 保持 在 同一 个 分 片 中 。 这 样 可 以 利用 分 片 亲 和 性 ， 避 人 免 跨 分 片 


查询 。 


如 果 使 用 动态 分 配 策 略 ， 可 以 生成 不 均衡 的 分 片 。 如 果 服务 器 能 
力 不 相 同 ， 或 者 希望 将 其 中 一 些 分 片 用 于 特定 目的 (例如 归档 数 
HE) ， 这 可 能 会 有 用 。 如 果 能 够 做 到 随时 重新 平衡 分 片 ， 也 可 以 为 分 
片 和 节点 间 维 持 一 一 对 应 的 映射 关系 ， 这 不 会 瀛 费 容量 。 也 有 些 人 喜 
欢 简 单 的 每 个 节点 一 个 分 片 的 方式 。 (但 是 请 记 住 ， 保 持 分 片 尽 可 能 
小 是 有 好 处 的 。) 动态 分 配 以 及 灵活 地 利用 分 片 亲 和 性 有 助 于 减轻 规 
模 扩 大 而 市 来 的 路 分 片 查 询问 题 。 假 设 一 个 跨 分 片 查 询 涉及 四 个 古 
点 ， 当 使 用 固定 分 配 时 ， 任 何 给 定 的 查询 可 能 需要 访问 所 有 分 片 ， 但 
动态 分 配 策略 则 可 能 只 需要 在 其 中 的 三 个 节点 上 运行 同样 的 查询 。 这 


看 起 来 没什么 大 区 别 ， 但 考虑 一 下 当 数 据 存储 增加 到 400 个 分 片 时 会 发 
FHA? 固定 分 配 策略 需要 访问 400 个 分 片 ， 而 动态 分 配方 式 依 然 只 需 
要 访问 3 个 。 


动态 分 配 可 以 让 分 片 策略 根据 需要 变 得 很 复杂 。 固 定 分 配 则 没有 
这 么 多 选择 。 


10. 混合 动态 分 配 和 固定 分 配 


可 以 混合 使 用 固定 分 配 和 动态 分 配 。 这 种 方法 通常 很 有 用 ， 有 时 
候 甚至 必须 要 混合 使 用 。 目 录 映 射 不 太 大 时 ， 动 态 分 配 可 以 很 好 胜 
任 。 但 如 果 分 片 单元 太 多 ， 效 果 就 会 变 差 。 


以 一 个 存储 网 站 链接 的 系统 为 例 。 这 样 一 个 站 点 需要 存储 数 百 亿 
的 行 ， 所 使 用 的 分 区 键 是 源 地 址 和 目的 地 址 URL 的 组 合 。 (这 两 个 
URL 的 任意 一 个 都 可 能 有 好 几 亿 的 链接 ， 因 此 ， 单 独 一 个 URL 并 不 适 
合 做 分 区 键 ) 。 但 是 在 映射 表 中 存储 所 有 的 产地 址 和 目的 地 址 URL 组 
合并 不 合理 ， 因 为 数据 量 太 大 了 ， 每 个 URL 都 需要 很 多 存储 空间 。 


一 个 解决 方案 是 将 URL 相 连 并 将 其 哈 希 到 固定 数目 的 桶 中 ， 然 后 
把 桶 动态 地 映射 到 分 片上 。 如 果 桶 的 数目 足够 大 一 一 例如 100 万 个 一 一 
你 就 能 把 大 多 数 数据 分 配 到 每 个 分 片上 ， 获 得 动态 分 配 的 大 部 分 好 
处 ， 而 无 须 使 用 庞大 的 映射 表 。 


11. 显 式 分 配 


第 三 种 分 配 策略 是 在 应 用 插入 新 的 数据 行 时 ， 显 式 地 选择 目标 分 
片 。 这 种 策略 在 已 有 的 数据 上 很 难 做 到 。 所 以 在 为 应 用 增加 分 片 时 很 
少 使 用 。 但 在 某 些 情况 下 还 是 有 用 的 。 


这 个 方法 是 把 数据 分 片 号 编码 到 ID 中 ， 这 和 之 前 提 到 的 避免 主 一 
主 复制 主键 冲突 策略 比较 相似 。 (详情 请 参阅 “在 主 一 主 复制 结构 中 写 
入 两 台 主 库 ”。) 


例如 ， 假 设 应 用 要 创建 一 个 用 户 3， 将 其 分 配 到 第 11 个 分 片 中 ， 并 
使 用 BIGINT 列 的 高 八 位 来 保存 分 片 号 。 这 样 最 终 的 D 就 是 
(11<<56)+3， 即 792633534417207299。 应 用 可 以 很 方便 地 从 中 抽取 出 
用 户 ID 和 分 片 号 ， 如 下 例 所 示 。 


mysql> SELECT (792633534417207299 >> 56) AS shard id， 
-> 792633534417207299 & ~(11 << 56) AS user_id; 
eee eee 


+----------+---------+ 


+----------+---------+ 


现在 假设 要 为 该 用 户 创建 一 条 评论 ， 并 存储 在 同一 个 分 片 中 。 应 
用 可 以 为 该 用 户 分 配 一 个 评论 ID 5， 然 后 以 同样 的 方式 组 合 5 和 分 片 号 
11. 


这 种 方法 的 好 处 是 每 个 对 象 的 ID 同时 包含 了 分 区 键 ， 而 其 他 方法 
通常 需要 一 次 关联 或 查找 来 确定 分 区 键 。 如 果 要 从 数据 库 中 检索 某 个 
特定 的 评论 ， 无 须知 道 哪个 用 户 拥 有 它 ; 对 象 ID 会 告诉 你 到 哪里 去 
找 。 如 果 对 象 是 通过 用 户 ID 动态 分 睫 的 ， 融 得 移 找 到 该 评论 的 用 户 ， 
然后 通过 目录 服务 器 找到 对 应 的 数据 分 片 。 


另 一 个 解决 方案 是 将 分 区 键 存储 在 一 个 单独 的 列 里 。 例 如 ， 你 可 
能 从 不 会 单独 引用 评论 5， 但 是 评论 5 属于 用 户 3。 这 种 方法 可 能 会 让 一 
些 人 高 兴 ， 因 为 这 不 违背 第 一 范式 ;然而 额外 的 列 会 增加 开销 、 编 
码 ， 以 及 其 他 不 便 之 处 。 (这 也 是 我 们 将 两 值 存在 单独 一 列 的 优点 之 
一 。 ) 


显 式 分 配 的 缺点 是 分 片 方式 是 固定 的 ， 很 难 做 到 分 片 间 的 负载 均 
衡 。 但 结合 固定 分 配 和 动态 分 配 ， 该 方法 就 能 够 很 好 地 工作 。 不 再 像 
之 前 那样 哈 希 到 固定 数目 的 桶 里 并 将 其 映射 到 节点 ， 而 是 将 桶 作为 对 
象 的 一 部 分 进行 编码 。 这 样 应 用 就 能 够 控制 数据 的 存储 位 置 ， 因 此 可 
以 将 相 天 联 的 数据 一 起 放 到 同样 的 分 片 中 。 


BoardReader (http://boardreader.com) 使 用 了 该 技术 的 一 个 变种 : 
它 把 分 区 键 编码 到 Sphinx 的 文档 ID 内 。 这 使 得 在 分 片 数 据 存储 中 查找 
每 个 查询 结果 的 关联 数据 变 得 容易 ， 更 多 关于 Sphinx 的 内 容 可 以 查阅 
附录 F。 


我 们 讨论 了 混合 分 配方 式 ， 因 为 在 某 些 场景 下 它 是 有 用 的 。 但 正 
常情 况 下 我 们 并 不 推荐 这 样 用 。 我 们 倾向 于 尽 可 能 使 用 动态 分 配 ， 避 
免 显 式 分 配 。 


12. 重新 均衡 分 片 数据 


如 有 必要 ， 可 以 通过 在 分 片 间 移动 数据 来 达到 负载 均衡 。 举 个 例 
子 ， 许 多 读者 可 能 听 一 些 大 型 图 片 分 享 网 站 或 流行 社区 网 站 的 开发 者 
是 到 过 用 于 分 片 间 移动 用 户 数据 的 工具 。 在 分 片 间 移动 数据 的 好 处 很 


明显 。 例 如， 当 需 要 升级 硬件 时 ， 可 以 将 用 户 数据 从 旧 分 卢 转 移 到 新 
分 片上 ， 而 无 须 暂 停 整 个 分 片 的 服务 或 将 其 设置 为 只 读 。 


然而 ， 我 们 也 应 该 尽量 避免 重新 均衡 分 片 数 据 ， 因 为 这 可 能 会 影 
响 用 户 使 用 。 在 分 片 间 转 移 数据 也 使 得 为 应 用 增加 新 特性 更 加 困难 ， 
因为 新 特性 可 能 还 需要 包含 针对 重新 均衡 脚本 的 升级 。 如 果 分 片 足 够 
小 ， 就 无 须 这 么 做 ; 也 可 以 经 常 移动 整个 分 片 来 重新 均衡 负载 ， 这 上 比 
移动 分 片 中 的 部 分 数据 要 容易 得 多 (并 且 以 每 行 数据 开销 来 衡量 的 
话 ， 更 有 效率 ) 。 


一 个 较 好 的 策略 是 使 用 动态 分 片 策 略 ， 并 将 新 数据 随机 分 配 到 分 
片 中 。 当 一 个 分 片 快 满 时 ， 可 以 设置 一 个 标志 位 ， 告 诉 应 用 不 要 再 往 
这 里 放 数 据 了 。 如 果 未 来 需要 向 分 片 中 放 入 更 多 数据 ， 可 以 直接 把 标 
记 位 清除 。 


假设 安装 了 一 个 新 的 MySQL 节 点 ， 上 面 有 100 个 分 片 。 先 将 它们 
的 标记 设置 为 1， 这 样 应 用 就 知道 它们 正 准备 接受 新 数据 。 一 旦 它们 的 
数据 足够 多 时 (例如 ， 每 个 分 片 10 000 个 用 户 ) ， 就 把 标记 位 设置 为 
0。 之 后 ， 如 果 节点 因为 大 量 废弃 账号 导致 负载 不 足 ， 可 以 重新 打开 一 
些 分 片 向 其 中 增加 新 用 户 。 


如 果 升 级 应 用 并 且 增 加 的 新 特性 会 导致 每 个 分 片 的 查询 负载 升 
高 ， 或 者 只 是 算 错 了 负载 ， 可 以 把 一 些 分 片 移 到 新 节点 来 减轻 负载 。 
缺点 是 操作 期 间 整个 分 片 会 变 成 只 读 或 者 处 于 离线 状态 。 这 需要 根据 
实际 情况 来 看 是 否 能 接受 。 


另外 一 种 使 用 得 较 多 的 策略 是 为 每 个 分 片 设置 两 台 备 库 ， 每 个 备 
库 都 有 该 分 片 的 完整 数据 。 然 后 每 个 备 库 负责 其 中 一 半 的 数据 ， 并 完 


全 停止 在 主 库 上 查询 。 这 样 每 个 备 库 都 会 有 一 半 它 不 会 用 到 的 数据 ，; 
我 们 可 以 使 用 一 些 工 具 ， 例 如 Percona Toolkit 的 pt-archiver， 在 后 人 台 运 
行 ， 移 除 那些 不 再 需要 的 数据 。 这 种 办 法 很 简单 并 且 几 乎 不 需要 停 
机 。 


13。 生 成 全 局 唯一 ID 


当 希 望 把 一 个 现 有 系统 转换 为 分 片 数 据 存储 时 ， 经 常会 需要 在 多 
台 机 器 上 生成 全 局 唯一 ID。 单 一 数据 存储 时 通常 可 以 使 用 
AUTO_INCREMENT 列 来 获取 唯一 ID。 但 涉及 多 台 服 务 器 时 就 不 凑 效 
了 。 以 下 几 种 方法 可 以 解决 这 个 问题 : 


使 用 auto increment increment 和 auto increment offset 


这 两 个 服务 器 变量 可 以 让 MySQL 以 期 望 的 值 和 偏 移 量 来 增加 
AUTO_INCREMENT 列 的 值 。 举 一 个 最 简单 的 场景 ， 只 有 两 台 服 
务 器 ， 可 以 配置 这 两 全 服务 器 自 增幅 度 为 2， 其 中 一 台 的 偏 移 量 设 
置 为 1， 另 外 一 台 为 2 (两 个 都 不 可 以 设置 为 0) 。 这 样 一 台 服 务 器 
总 是 包含 偶数 ， 另 外 一 台 则 总 是 包含 奇数 。 这 种 设置 可 以 配置 到 
服务 器 的 每 一 个 表 里 。 


这 种 方法 简单 ， 并 且 不 依赖 于 某 个 节点 ， 因 此 是 生成 唯一 ID 
的 比较 普遍 的 方法 。 但 这 需要 非常 仔细 地 配置 服务 器 。 很 容易 因 
为 配置 错误 生成 重复 数字 ， 特 别 是 当 增 加 服务 器 需要 改变 其 角 
色 ， 或 进行 灾难 恢复 时 。 


fat meek 


在 一 个 全 局 数据 库 节点 中 创建 一 个 包含 AUTO_INCREMENT 
列 的 表 ， 应 用 可 以 通过 这 个 表 来 生成 唯一 数字 。 


使 用 memcached 


在 memcached 的 API 中 有 一 个 incrO0 孜 数 ， 可 以 自动 增长 一 个 
数字 并 返回 结果 。 另 外 也 可 以 使 用 Redis。 


批量 分 配 数字 
应 用 可 以 从 一 个 全 局 节点 中 请 求 一 批 数 字 ， 用 完 后 再 申请 。 
使 用 复合 值 


可 以 使 用 一 个 复合 值 来 做 唯一 ID ， 例 如 分 片 号 和 自 增 数 的 组 
合 。 具 体 参阅 之 前 的 章节 。 


使 用 GUID 值 


可 以 使 用 UUIDO 上 函数 来 生成 全 局 唯一 值 。 注 意 ， 尽 管 这 个 了 
数 在 基于 语句 的 复制 时 不 能 正确 复制 ， 但 可 以 先 获得 这 个 值 ， 再 
存放 到 应 用 的 内 存 中 ， 然 后 作为 数字 在 查询 中 使 用 。GUID 的 值 很 
大 并 且 不 连续 ， 因 此 不 适合 做 InnoDB 表 的 主键 。 具 体 参 考 “ 和 
InnoDB 主 键 一 致 地 插入 行 ”。 在 5.1 及 更 新 的 版 本 中 还 有 一 个 函数 
UUID_SHORTO， 能 够 生成 连续 的 值 ， 并 使 用 64 位 代替 了 之 前 的 
128 位 。 


如 果 使 用 全 局 分 配器 来 产生 唯一 ID ， 要 注意 避免 单 点 争 用 成 为 应 
用 的 性 能 瓶颈 。 


虽然 memcached 方 法 执行 速度 快 《每 秒 数 万 个 值 ) ， 但 不 具备 持 
久 性 。 每 次 重启 memcached 服 务 都 需要 重新 初始 化 缓存 里 的 值 。 由 于 
需要 首先 找到 所 有 分 片 中 的 最 大 值 ， 因 此 这 一 过 程 非常 缓慢 并 且 难 以 
实现 原子 性 。 


14. PALA 


在 设计 数据 分 片 应 用 时 ， 首 先 要 做 的 事情 是 编写 能 够 查询 多 个 数 
据 产 的 代码 。 


如 果 没 有 任何 抽象 层 ， 直 接 让 应 用 访问 多 个 数据 源 ， 那 绝对 是 一 
个 很 差 的 设计 ， 因 为 这 会 增加 大 量 的 编码 复杂 性 。 最 好 的 办 法 是 将 数 
据 源 隐藏 在 抽象 层 中 。 这 个 抽象 层 主 要 完成 以 下 任务 : 


。 连接 到 正确 的 分 片 并 执行 查询 。 

。 分布 式 一 致 性 校 验 。 

。 跨 分 片 结果 集聚 合 。 

。 EEDA KEIR 

。 锁 和 事务 管理 。 

。 创建 新 的 数据 分 片 (或 者 至 少 在 运行 时 找到 新 分 片 ) 并 重新 平衡 
DA (如 果 有 了 时间 实现 ) o 


你 可 能 不 需要 从 头 开始 构建 分 三 结构 。 有 一 些 工 具 和 系统 可 以 提 
供 一 些 必要 的 功能 或 专门 设计 用 来 实现 分 片 架构 。 


Hibernate Shards (http://shards.hibernate.org) 是 一 个 支持 分 片 的 
数据 库 抽象 层 ， 基 于 Java 语 言 的 开源 的 Hibernate ORM 库 扩展 ， 由 谷歌 
提供 。 它 在 Hibernate Core 接口 上 提供 了 分 片 感知 功能 ， 所 以 应 用 无 须 


专门 为 分 片 设 计 ; 事实 上 ， 应 用 甚至 无 须知 道 它 正在 使 用 分 片 。 
Hibernate Shards 通过 固定 分 配 策略 向 分 片 分 配 数据 。 另 外 一 个 基于 
Java 的 分 片 系统 是 HiveDB (http:/www.hivedb.org) o 


如 果 使 用 的 是 PHP 语 言 ， 可 以 使 用 Justin Swanhart 提 供 的 Shard- 
Query 系 统 (http://code.google.com/p/shard-query/) ， 它 可 以 自动 分 解 
查询 ， 并 发 执行 ， 并 合并 结果 集 。 另 外 一 些 有 同样 用 途 的 商用 系统 有 
ScaleBase ( http://www.scalebase.com ) 、 ScalArc 

( http://www.scalarc.com ) ’ 以 及 dbShards 
(http:/www.dbshards.com) o 


Sphinx 是 一 个 全 文 检索 引擎 ， 虽 然 不 是 分 片 数 据 存储 和 检索 系 
统 ， 但 对 于 一 些 跨 分 片 数 据 存储 的 查询 依然 有 用 。Sphinx 可 以 并 行 查 
询 远 程 系 统 并 聚合 结果 集 。 在 附录 F 中 会 详细 讨论 Sphinx。 


11.25 ”通过 多 实例 扩展 


一 个 分 片 较 多 的 架构 可 能 会 更 有 效 地 利用 硬件 。 我 们 的 研究 和 经 
验 表明 MySQL 并 不 能 完全 发 挥 现代 硬件 的 性 能 。 当 扩展 到 超过 24 个 
CPU 核心 时 ，MySQL 的 性 能 开始 趋 于 平缓 ， 不 再 上 升 。 当 内 存 超过 
128GB 时 也 同样 如 此 ，MySQL 甚 至 不 能 完全 发 挥 诸 如 Virident 或 Fusion- 
io 卡 这 样 的 高 端 PCIe flash 设 备 的 IO 性 能 。 


不 要 在 一 台 性 能 强悍 的 服务 器 上 只 运行 一 个 服务 器 实例 ， 我 们 还 
有 别 的 选择 。 你 可 以 让 数据 分 片 足够 小 ， 以 使 每 台 机 器 上 都 能 放置 多 
个 分 片 《这 也 是 我 们 一 直 提 倡 的 ，， 每 台 服 务 器 上 运行 多 个 实例 ， 然 
后 划分 服务 器 的 硬件 资源 ， 将 其 分 配给 每 个 实例 。 


这 样 做 尽管 比较 烦琐 ， 但 确实 有 效 。 这 是 一 种 向 上 扩展 和 向 外 扩 
展 的 组 合 方案 。 也 可 以 用 其 他 方法 来 实现 一 一 不 一 定 需要 分 片 一 一 但 
分 片 对 于 在 大 型 服务 器 上 的 联合 扩展 具有 天 然 的 适应 性 。 


一 些 人 倾向 于 通过 虚拟 化 技术 来 实现 合并 扩展 ， 这 有 它 的 好 处 。 
但 虚拟 化 技术 本 身 有 很 大 的 性 能 损耗 。 具 体 损耗 多 少 取 决 于 具体 的 拉 
术 ， 但 通常 都 比较 了 明显， 尤其 是 VO 非常 快 的 时 候 损 耗 会 非常 惊人 。 另 
一 种 选择 是 运行 多 个 MySQL 实 例 ， 每 个 实例 监听 不 同 的 网 络 端口 ， 或 
绑 定 到 不 同 的 IP 地 址 。 


我 们 已 经 在 一 台 性 能 强悍 的 硬件 上 获得 了 10 倍 或 15 倍 的 合并 系 
数 。 你 需要 平衡 管理 复杂 度 代价 和 更 优 性 能 的 收益 ， 以 决定 哪 种 方法 


是 最 优 的 。 


这 时 候 网 络 可 能 会 成 为 瓶颈 一 一 这 个 问题 大 多 数 MySQL 用 户 都 不 
会 遇 到 。 可 以 通过 使 用 多 块 网 卡 并 进行 绑 定 来 解决 这 个 问题 。 但 Linux 
内 核 可 能 会 不 理想 ， 这 取决 于 内 核 版 本 ， 因 为 老 的 内 核对 每 个 绑 定 设 
备 的 网 络 中 断 只 能 使 用 一 个 CPU。 因 此 不 要 把 太 多 的 连 绪 绑 定 到 很 少 
的 虚拟 设备 上 ， 否 则 会 遇 到 内 核 层 的 网 络 瓶 颈 。 新 的 内 核 在 这 一 方面 
会 有 所 改善 ， 所 以 需要 检查 你 的 系统 版 本 ， 以 确定 该 怎么 做 。 


另 一 个 方法 是 将 每 个 MySQL 实 例 绑 定 到 特定 的 CPU 核心 上 。 这 有 
两 点 好 处 : 第 一 ， 由 于 MySQL 内 部 的 可 扩展 性 限制 ， 当 核心 数 较 少 
时 ， 能 够 在 每 个 核心 上 获得 更 好 的 性 能 ;第 二 ， 当 实例 在 多 个 核心 上 
运行 线程 时 ， 由 于 需要 在 多 核心 上 同步 共享 数据 ， 因 而 会 有 一 些 额外 
的 开销 。 这 可 以 避免 硬件 本 身 的 可 扩展 性 限制 。 限 制 MySQL 到 少数 几 
个 核心 能 够 帮助 减少 CPU 核心 之 间 的 交互 。 注 意 到 反复 出 现 的 问题 了 


没 ? 将 进程 绑 定 到 具有 相同 物理 套 接 字 的 核心 上 可 以 获得 最 优 的 效 
果 。 


11.2.6 ”通过 集 群 扩展 


理想 的 扩展 方案 是 单一 逻辑 数据 库 能 够 存储 尽 可 能 多 的 效 据 ， 处 
理 尽 可 能 多 的 查询 ， 并 如 期 望 的 那样 增长 。 许 多 人 的 第 一 想法 就 是 建 
立 一 个 “集群 ?或 者 “网 格 ” 来 无 缝 处 理 这 些 事情 ， 这 样 应 用 就 无 须 去 做 
太 多 工作 ， 也 不 需要 知道 数据 到 底 存在 哪 台 服务 器 上 。 随 着 云 计算 的 
流行 ， 自 动 扩展 一 一 根据 负载 或 数据 大 小 变化 动态 地 在 集群 中 增加 / 移 
除 服 务 器 一 一 变 得 越 来 越 有 趣 。 


在 本 书 第 二 版 时 ， 我 们 遗憾 地 看 到 已 有 的 技术 无 法 完成 这 一 任 
务 。 从 那 时 开始 ， 出 现 了 许多 被 称 为 NoSQL 的 技术 。 许 多 NoSQL 的 支 
持 者 发 表 了 一 些 奇 怪 且 未 经 证 实 的 观点 ， 例 如 “关系 模型 无 法 进行 扩 
展 ”， 或 者 “SQL 无 法 扩展 *”。 随 着 新 概念 的 出 现 ， 也 出 现 了 一 些 新 的 术 
语 。 最 近 谁 没有 听 说 过 最 终 一 致 性 、BASE、 矢 量 时 钟 ， 或 者 CAP 理 论 
呢 ? 


但 随 着 时 间 推 移 ， 理 性 开始 逐渐 回归 。 经 验 表明 许多 NoSQL 数 气 
库 太 过 于 简单 ， 并 且 无 法 完成 很 多 工作 中 。 同 时 一 些 基于 SQL 的 技术 
开始 出 现 一 一 例如 451 集 团 (451 Group) 的 Matt Aslett 所 提 到 的 
NewSQL 数 据 库 。SQL 和 NewSQL 到底 有 什么 区 别 呢 ?NewSQL 数 据 库 
中 SQL 及 相关 技术 都 不 应 该 成 为 问题 。 而 可 扩展 性 问题 在 关系 型 数据 
库 中 是 一 个 实现 上 的 难题 ， 但 新 的 实现 正 表 现 出 越 来 越 好 的 结果 。 


所 有 的 旧事 物 都 变 成 新 的 了 吗 ? 是 ， 但 也 不 是 。 许 多 关系 型 数据 
库 集群 的 高 性 能 设计 正在 被 构建 到 系统 的 更 低层 ， 在 NoSQL 数 据 库 
中 ， 特 别 是 使 用 键 一 值 存储 时 ， 这 一 点 很 明显 。 例 如 NDB Cluster 并 不 
是 一 个 SQL 数据 库 ; 它 是 一 个 可 扩展 的 数据 库 ， 使 用 其 原生 API 来 控 
制 ， 通 常 是 使 用 NoSQL ， 但 也 可 以 通过 在 前 端 使 用 MySQL 存 储 引 擎 来 
支持 SQL。 它 是 一 个 完全 分 布 式 、 非 共享 高 性 能 、 自 动 分 片 并 且 不 存 
在 单 点 故障 的 事务 型 数据 库 服务 器 。 最 近 几 年 正 变 得 更 强大 、 更 复 
杂 ， 用 途 也 更 广泛 。 同 时 ，NoSQL 数 据 库 也 逐渐 看 起 来 越 来 越 像 关系 
型 数据 库 。 有 些 甚 至 还 开发 了 类 SQL 查 询 语言 。 未 来 典型 的 集群 数据 
库 可 能 更 像 是 SQL 和 NoSQL 的 混合 体 ， 有 多 种 存 取 机 制 来 满足 不 同 的 
使 用 需求 。 所 以 ， 我 们 在 从 NoSQL 中 汲取 优点 ， 但 SQL 仍然 会 保留 在 
集群 数据 库 中 。 


在 写作 本 书 时 ， 和 MySQL 结 合 在 一 起 的 集群 或 分 布 式 效 据 库 技术 
AMEE: NDB Cluster, Clustrix, Percona XtraDB Cluster, Galera, 
Schooner Active Cluster, Continuent Tungsten, ScaleBase、 ScaleArc、 
dbShards, Xeround, Akiban, VoltDB, LAR¢GenieDB, 这些 或 多 或 少 
以 MYSQL 为 基础 ， 或 通过 MySQL 进 行 控制 ， 或 是 和 MySQL 相 关 。 本 

会 讲 到 这 其 中 的 一 部 分 一 一 例如 ， 在 第 13 章 我 们 会 讲 到 Xeround， 在 
第 10 章 我 们 讲 到 了 Continuent Tungsten 和 其 他 几 种 技术 一 一 这 里 我 们 同 
样 会 对 其 中 的 几 个 进行 描述 。 


在 开始 前 ， 需 要 指出 ， 可 扩展 性 、 高 可 用 性 、 事 务 性 等 是 数据 库 
系统 的 不 同 特性 。 许 多 人 会 感到 困惑 并 将 这 些 当 作 是 相同 的 东西 ， 但 
事实 上 不 是 。 本 章 我 们 主要 集中 讨论 可 扩展 性 。 但 事实 上 ， 可 扩展 的 
数据 库 并 不 一 定 非 常 优秀 ， 除 非 它 能 保证 高 性 能 ， 谁 愿意 牺牲 高 可 用 


性 来 进行 扩展 呢 ? 这 些 特性 的 组 合 堪 称 数据 库 的 必 杀 技 ， 但 这 很 难 实 
现 。 当 然 这 不 是 本 章 要 讨论 的 内 容 。 


最 后 ， 除 NDB Cluster 外 ， 大 多 数 NewSQL 集 群 产 品 都 是 比较 新 的 
事物 。 我 们 还 没有 看 到 足够 多 的 生产 环境 部 署 以 完全 获知 其 优点 和 限 
制 。 尽 管 它们 提 到 了 MySQL 协 议 或 其 他 与 MySQL 相 关 的 地 方 ， 但 它 
们 毕竟 不 是 MySQL， 因 此 不 在 本 书 讨论 的 范围 内 。 我 们 仅仅 稍微 提 一 
下 ， 由 你 自己 来 判断 它们 是 否 适用 。 


1. MySQL Cluster (NDB Cluster) 


MySQL Cluster 是 两 项 技术 的 结合 : NDB 数 据 库 ， 以 及 作为 SQL 前 
端的 MySQL 存 储 引 擎 。NDB 是 一 个 分 布 式 、 有 具备 容错 性 、 非 共享 的 数 
据 库 ， 提 供 同步 复制 以 及 节点 间 的 数据 自动 分 片 。NDB Cluset 存 储 引 
和 擎 将 SQL 转换 为 NDB API 调 用 ， 但 遇 到 NDB 不 支持 的 操作 时 ， 就 会 在 
MySQL 服 务 器 上 执行 (NDB 是 一 个 键 一 值 数据 存储 ， 无 法 执行 类 似 联 
接 或 聚合 的 复杂 操作 ) o 


NDB 是 一 个 非常 复杂 的 数据 库 ， 和 MySQL 几乎 完 全 不 同 。 在 使 用 
NDB 时 甚至 可 以 不 需要 MySQL: 你 可 以 把 它 作 为 一 个 独立 的 键 一 值 数 
据 库 服务 器 。 它 的 亮点 包括 非常 高 的 写 入 和 按键 查询 吞吐 量 。NDB 可 
以 基于 键 的 哈 希 自动 决定 哪个 节点 应 该 存储 给 定 的 数据 。 当 通过 
MySQL 来 控制 NDB 时 ， 行 的 主键 就 是 键 ， 其 他 的 列 是 值 。 


因为 它 基于 一 些 新 的 技术 ， 并 且 集 群 具 有 容错 性 和 分 布 式 特性 ， 
所 以 管理 NDB 需 要 非常 专业 和 特殊 的 技能 。 有 许多 动态 变化 的 部 分 ， 
还 有 类 似 升 级 集群 或 增加 节点 的 操作 必须 正确 执行 以 防止 意外 的 问 


题 。NDB 是 一 项 开源 技术 ， 但 也 可 以 从 Oracle 购 买 商业 支持 。 商 业 支 
持 中 包括 能 够 获得 专门 的 集群 管理 产品 Cluster Manager， 可 以 自动 执 
行 一 些 枯 燥 且 栋 手 的 任务 。 (Severalnines 同 样 提供 了 一 个 集群 管理 产 


品 ， 参 见 http:Mwww. severalnines.com) o 


MySQL Cluster 正 在 迅速 地 增加 越 来 越 多 的 特性 和 功能 。 例 如 在 最 

近 的 版 本 中 ， 它 开始 支持 更 多 类 型 的 集群 变更 而 无 须 停 机 操作 ， 并 且 
能 够 在 数据 存储 的 节点 上 执行 一 些 特定 类 型 的 查询 ， 以 减少 数据 传递 
给 MySQL 层 并 在 其 中 执行 查询 的 必要 性 。 (这 个 特性 已 由 关联 下 推 
(push-down join ) 更 名 为 自 适应 查询 本 地 化 (adaptive query 


localization) 。) 


NDB 曾 经 相对 其 他 MySQL 存 储 引 擎 具有 完全 不 同 的 性 能 特性 ， 但 
最 近 的 版 本 更 加 通用 化 了 。 它 正在 成 为 越 来 越 多 应 用 的 更 好 的 解决 方 
案 ， 包 括 游戏 和 移动 应 用 。 我 们 必须 强调 ，NDB 是 一 项 重要 的 技术 ， 
能 够 支持 全 球 最 大 的 关键 应 用 ， 这 些 应 用 处 于 极 高 的 负载 下 ， 具 有 非 
常 严 茶 的 延迟 要 求 以 及 不 间断 要 求 。 举 个 例子 ， 世 界 上 任何 一 个 通过 
移动 电话 网 络 呼叫 的 电话 使 用 的 就 是 NDB， 并 且 不 是 临时 方案 一 一 对 
于 许多 移动 电话 提供 商 而 言 ， 它 是 一 个 主要 的 并 且 非 常 重要 的 数据 
Fo 


NDB 需 要 一 个 快速 且 可 靠 的 网 络 来 连接 节点 。 为 了 获得 最 好 的 性 
能 ， 最 好 使 用 特定 的 高 速 连接 设备 。 由 于 大 多 数 情 况 下 需要 内 存 操 
作 ， 因 此 服务 器 间 需 要 大 量 的 内 存 。 


那么 它 有 什么 缺点 呢 ? 复杂 查询 现在 支持 得 还 不 是 很 好 ， 例 如 那 
些 有 很 多 关联 和 聚合 的 查询 。 所 以 不 要 指望 用 它 来 做 数据 仓库 。NDB 
是 一 个 事务 型 系统 ， 但 不 支持 MVCC， 所 以 读 操作 也 需要 加 锁 ， 也 不 


做 任何 的 死 锁 检测 。 如 果 发 生死 锁 ，NDB 就 以 超时 返回 的 方式 来 解 
决 。 还 有 很 多 你 应 该 知道 的 要 点 和 警告 ， 可 以 专门 写 一 本 书 了 。 (有 
一 些 天 于 MySQL Cluster 的 书 ， 但 大 多 效 都 过 时 了 ， 最 好 的 办 法 是 阅读 
Fit. ) 


2. Clustrix 


Clustrix (http://www.clustrix.com) 是 一 个 分 布 式 数据 库 ， 支 持 
MySQL 协 议 ， 所 以 它 可 以 直接 替代 MySQL。 除 了 协议 外 ， 它 是 一 个 
全 新 的 技术 ， 并 非 建 立 在 MySQL 的 基础 之 上 。 它 是 一 个 完全 支持 
ACID， 支 持 MVCC 的 事务 型 SQL 数 据 库 ， 主 要 用 于 OLTP 负 和 载 场景 。 
Clustrix 在 节点 间 进 行 数据 分 片 以 满足 容错 性 ， 并 对 查询 进行 分 发 ， 在 
节点 上 并 发 执行 ， 而 不 是 将 所 有 节点 上 取得 的 数据 集中 起 来 执行 。 集 
群 可 以 在 线 扩展 节点 来 处 理 更 多 的 数据 或 负载 。 在 某 些 方面 Clustrix 和 
MySQL Cluster 很 像 ， 关键 的 不 同 点 是 ，Clustrix 是 完全 分 布 式 执行 并 
且 缺 少 顶 层 的 “代理 ”或 者 集群 前 端的 查询 协调 器 (query 
coordinator) 。Clustrix 本 身 能 够 理解 MySQL 协 议 ， 所 以 无 须 MySQL 来 
进行 协议 转换 。 相 比较 而 言 ， MySQL cluster 是 由 三 个 部 分 组 成 的 : 
MySQL，NDB 集 群 仓储 引擎 ， 以 及 NDB。 


我 们 的 实验 评估 和 性 能 测试 表明 ，Clustrix 能 够 提供 高 性 能 和 可 扩 
展 性 。Clustrix 看 起 来 是 一 项 比较 有 前 景 的 技术 ， 我 们 将 继续 观察 和 评 
{fio 


3. ScaleBase 


ScaleBase (http:/www.scalebase.com) 是 一 个 软件 代理 ， 处 于 应 用 
和 多 个 后 端 MySQL 服 务 器 之 间 。 它 会 把 发 起 的 查询 进行 分 裂 ， 并 将 其 
分 发 到 后 端 服务 器 并 发 执行 ， 然 后 汇集 结果 返回 给 应 用 。 不 过 在 写作 
本 书 时 ， 我 们 还 没有 使 用 该 产品 的 经 验 。 另 外 的 竞争 产品 有 ScaleArc 
(http://www.calearc.com) 和 dbShards (http:/www.dbshards.com) o 


4. GenieDB 


GenieDB (http://www.geniedb.com) 最 开始 用 于 地 理 上 分 布 部 署 的 
NoSQL 文 档 存 储 。 现 在 它 也 有 一 个 SQL 层 ， 可 以 通过 MySQL 存 储 引 擎 
进行 控制 。 它 包含 了 很 多 技术 ， 包 括 本 地 内 存 缓存 、 消 息 层 ， 以 及 持 
久 化 磁盘 数据 存储 。 将 这 些 技术 汇集 在 一 起 ， 就 可 以 使 用 松散 的 最 终 
一 致 性 ， 让 应 用 在 本 地 快速 执行 查询 ， 或 是 通过 分 布 式 集群 (会 增加 
网 络 延迟 ) 来 保证 最 新 的 数据 视图 。 


通过 存储 引擎 实现 的 MySQL 兼 容 层 不 能 提供 100% 的 MySQL 特 
性 ， 但 对 于 支持 类 似 Joomla!、WordPress， 以 及 Drupal 这 样 的 应 用 已 
经 够 用 了 。MySQL 和 存储 引擎 的 用 处 主要 是 使 GenieDB 能 够 结合 存储 引 
擎 获得 对 ACID 的 支持 ， 例 如 InnoDB。GenieDB 本 身 并 不 是 ACID 数据 
库 。 


我 们 还 没 用 应 用 过 GenieDB， 也 没有 看 到 任何 生产 环境 部 署 。 


5. Akiban 


对 Akiban (http:/www.akiban.com) 最 好 的 描述 应 该 是 查询 加 速 
器 。 它 通过 存储 物理 数据 来 匹配 查询 模式 ， 使 得 低 开销 的 跨 表 关联 操 
作成 为 可 能 。 尽 管 类 似 反 范式 化 (denormalization) ， 但 数据 层 并 不 是 
多余 的 ， 所 以 这 和 预先 计算 关联 并 存储 结果 的 方式 是 不 同 的 。 关 联 表 
中 元 组 是 互相 交错 的 ， 所 以 能 够 按照 关联 顺序 进行 顺序 扫描 。 这 就 要 
求 管理 员 确 定 查询 模式 能 够 从 所 谓 的 “ 表 组 ” (table grouping) 技术 中 
受益 ， 并 需要 为 查询 优化 设计 表 组 。 目 前 建议 的 系统 架构 是 将 Akiban 
配置 为 MySQL 主 库 的 备 库 ， 并 用 它 来 为 可 能 较 慢 的 查询 提供 服务 。 加 
速 系数 是 一 到 两 个 数量 级 。 但 是 我 们 还 没有 看 到 生产 环境 部 署 或 者 相 
AVR. Oo 


11.2.7 BAY È 


处 理 不 断 增长 的 效 据 和 负载 最 简单 的 办 法 是 对 不 再 需要 的 效 据 进 
行 归档 和 清理 。 这 种 操作 可 能 会 审 来 显著 的 成 效 ， 有 具体 取决 于 工作 负 
载 和 数据 特性 。 这 种 做 法 并 不 用 来 代替 其 他 策略 ， 但 可 以 作为 争取 时 
间 的 短期 策略 ， 也 可 以 作为 处 理 大 数据 量 的 长 期 计划 之 一 。 


在 设计 归档 和 清理 策略 时 需要 考虑 到 如 下 几 点 。 
对 应 用 的 影响 


一 个 设计 良好 的 归档 系统 能 够 在 不 影响 事务 处 理 的 情况 下 ， 
从 一 个 高 负载 的 OLTP 服 务 器 上 移 除数 据 。 这 里 的 关键 是 能 高 效 地 
找到 要 删除 的 行 ， 然 后 一 小 块 一 小 块 地 移 除 。 通 常 需要 平衡 一 次 
归档 的 行 数 和 事务 的 大 小 ， 以 找到 一 个 锁 竞争 和 事务 负载 量 的 平 
衡 。 还 需要 设计 归档 任务 在 必要 的 时 候 让 步 于 事务 处 理 。 


要 归档 的 行 


当知 道 某 些 数 据 不 再 使 用 后 ， 就 可 以 立刻 清理 或 归档 它们 。 
也 可 以 设计 应 用 去 归档 那些 几乎 不 怎么 使 用 的 数据 。 可 以 把 归档 
的 数据 置 于 核心 表 附 近 ， 通 过 视图 来 访问 ， 或 完全 转移 到 别 的 服 
务 器 上 。 


维护 数据 一 致 性 


当 数 据 间 存在 联系 时 ， 会 导致 归档 和 清理 工作 更 加 复杂 。 一 
个 设计 良好 的 归档 任务 能 够 保证 数据 的 逻辑 一 臻 性， 或 至 少 在 应 
用 需要 时 能 够 保证 一 致 ， 而 无 须 在 大 量 事务 中 包含 多 个 表 。 


当 表 之 间 存 在 关系 时 ， 哪 个 表 首 先 归档 是 个 问题 。 在 归档 时 
需要 考虑 项 立行 的 影响 。 可 以 选择 违背 外 键 约 束 (可 以 通过 执行 
SET FOREIGN_KEY_CHECKS=0 禁 止 InnoDB 的 外 键 约束 ) RE 
时 把 “悬空 指针 ” (dangling pointer) 记录 放 到 一 边 。 如 果 应 用 层 认 
为 这 些 相 关联 的 表 具 有 层次 关系 ， 那 么 归档 的 顺序 也 应 该 和 它 一 
样 。 例 如 ， 如 果 应 用 总 是 先 检查 订单 再 检查 发 货 单 ， 就 先 归 档 订 
单 。 应 用 应 该 看 不 到 孤立 的 发 货 单 ， 因 此 接 下 来 就 可 以 将 发 货 
归档 。 


避免 数据 丢失 


如 果 是 在 服务 器 间 归 档 ， 归 档期 间 可 能 丈 无 法 做 分 布 式 事务 
处 理 ， 也 有 可 能 将 数据 归档 到 MyISAM 或 其 他 非 事务 型 的 存储 引 
擎 中 。 因 此 ， 为 了 避免 数据 丢失 ， 在 从 源 表 中 删除 时 ， 要 保证 已 
经 在 目标 机 器 上 保存 。 将 归档 数据 单独 写 到 一 个 文件 里 也 是 个 好 


主意 。 可 以 将 归档 任务 设计 为 能 够 随时 天 闭 或 重启 ， 并 且 不 会 引 
起 不 一 致 或 索引 冲突 之 类 的 错误 。 


解除 归档 (unarchiving) 


可 以 通过 一 些 解 除 归 档 策略 来 减少 归档 的 数据 量 。 它 可 以 帮 
助 你 归档 那些 不 确定 是 否 需要 的 数据 ， 并 在 以 后 可 以 通过 选项 进 
行 回 退 。 如 果 可 以 设置 一 些 检查 点 让 系统 来 检查 是 否 有 需要 归档 
的 数据 ， 那 么 这 应 该 是 一 个 很 容易 实现 的 策略 。 例 如 ， 要 对 不 活 
跃 的 用 户 进 行 归档 ， 检 查 点 就 可 以 设置 在 登录 验证 时 。 如 果 因 为 
用 户 不 存在 导致 登录 失败 ， 可 以 去 检查 归档 数据 中 是 否 存在 该 用 
户 ， 如 果 有 ， 则 从 中 取出 来 并 完成 登录 。 


| pA ] Percona Toolkit 包 含 的 工具 pt-archiver 能 够 帮助 你 有 效 地 归档 和 清理 MySQL 表 ， 但 


不 提供 解除 归档 功能 。 


保持 活跃 数据 独立 


即使 并 不 真 的 把 老 数 据 转 移 到 别 的 服务 器 ， 许 多 应 用 也 能 受益 于 
活跃 数据 和 非 活 路 数据 的 隔离 。 这 有 助 于 高 效 利用 缓存 ， 并 为 活跃 和 
不 活路 的 数据 使 用 不 同 的 硬件 或 应 用 染 构 。 下 面 列举 了 几 种 做 法 : 


将 表 划 分 为 几 个 部 分 


分 表 是 一 种 比较 明智 的 办 法 ， 特 别 是 整 张 表 无 法 完全 加 载 到 
内 存 时 。 例 如 ， 可 以 把 users 表 划分 为 active_users 和 inactive_users 
表 。 你 可 能 认为 这 并 不 需要 ， 因 为 数据 库 本 身 只 缓存 “ 热 * 数 据 ， 


但 事实 上 这 取决 于 存储 引擎 。 如 果 用 的 是 mnoDB ， 每 次 缓存 一 
页 ， 而 一 页 能 存储 100 个 用 户 ， 但 只 有 10% 是 活跃 的 ， 那 么 这 时 候 
InnoDB 可 能 认为 所 有 的 页 都 是 “ 热 ”* 的 一 一 因此 每 个 “ 热 * 页 的 90% 
将 被 浪费 掉 。 将 其 拆 成 两 个 表 可 以 明显 改善 内 存 利用 率 。 


MySQL 分 区 


xi 


MySQL 5.1 本 身 提供 了 对 表 进 行 分 区 的 功能 ， 能 够 帮助 把 
近 的 数据 留 在 内 存 中 。 第 7 章 详细 介绍 了 分 区 表 。 


基于 时 间 的 数据 分 区 


如 果 应 用 不 断 有 新 数据 进来 ， 一 般 新 数据 总 是 比 旧 数据 更 加 
活跃 。 例 如 ， 我 们 知道 博客 服务 的 流量 大 多 是 最 近 七 天 发 表 的 文 
章 和 评论 。 更 新 的 大 部 分 是 相同 的 数据 集 。 因 此 这 些 数据 被 完整 
地 保留 在 内 存 中 ， 使 用 复制 来 保证 在 主 库 失 效 时 有 一 份 可 用 的 备 
份 。 其 他 数据 则 完全 可 以 放 到 别 的 地 方 去 。 


我 们 也 看 到 过 这 样 一 种 设计 ， 在 两 个 节点 的 分 片上 存储 用 户 
数据 。 新 数据 总 是 进入 “活跃 ”节点 ， 该 节点 使 用 更 大 的 内 存 和 快 
速 硬盘 ， 另 外 一 个 节点 存储 旧 数 据 ， 使 用 非常 大 (但 比较 慢 ) 的 
硬盘 。 应 用 假设 不 太 会 需要 旧 数 据 。 对 于 很 多 应 用 而 言 这 是 合理 
的 假设 ,依靠 10% 的 最 新 数据 能 够 满足 90% 或 更 多 的 请 求 。 


可 以 通过 动态 分 片 来 轻松 实现 这 种 策略 。 例 如 ， 分 片 目 录 表 可 能 
定义 如 下 : 


CREATE TABLE users ( 


user_id int unsigned not null, 
shard_new int unsigned not null, 
shard_archive int unsigned not null, 
archive_timestamp timestamp, 
PRIMARY KEY (user_id) 

) ; 


通过 一 个 归档 脚本 将 旧 数 据 从 活跃 节点 转移 到 归档 节点 ， 当 移动 
用 户 数 据 到 归档 节点 时 ， 更 新 archive_timestamp 列 的 值 。shard_new 和 
shard_archive 列 记录 存储 数据 的 分 片 号 。 


11.3 ”负载 均衡 


负载 均衡 的 基本 思路 很 简单 : 在 一 个 服务 器 集群 中 尽 可 能 地 平均 
负载 量 。 通 常 的 做 法 是 在 服务 器 前 端 设 置 一 个 负载 均衡 器 (一 般 是 
门 的 硬件 设备 ) 。 然 后 负载 均衡 器 将 请 求 的 连接 路 由 到 最 空 内 的 可 用 
服务 器 。 图 11-9 显 示 了 一 个 典型 的 大 型 网 站 负载 均衡 设置 ， 其 中 一 个 
负载 均衡 器 用 于 HTTP 流 量 ， 另 一 个 用 于 MySQL 访 问 。 


图 11-9: 一 个 典型 的 读 密集 型 网 站 负载 均衡 架构 
负载 均衡 有 五 个 常见 目的 。 
可 扩展 性 


负载 均衡 对 某 些 扩展 策略 有 所 帮助 ， 例 如 读 写 分 离 时 从 备 库 
读数 据 。 


负载 均衡 有 助 于 更 有 效 地 使 用 资源 ， 因 为 它 能 够 控制 请 求 被 
路 由 到 何 处 。 如 果 服 务 器 处 理 能 力 各 不 相同 ， 这 就 尤为 重要 : 你 
可 以 把 更 多 的 工作 分 配给 性 能 更 好 的 机 器 。 


可 用 性 


一 个 灵活 的 负载 均衡 解决 方案 能 够 使 用 时 刻 保持 可 用 的 服务 
器 。 


透明 性 


客户 端 无 须知 道 是 否 存 在 负载 均衡 设置 ， 也 不 需要 关心 在 负 
载 均衡 器 的 背后 有 多 少 机 器 ， 它 们 的 名 字 是 什么 。 负 载 均衡 器 给 
客户 端 到 的 只 是 一 个 虚拟 的 服务 器 。 


一 致 性 


如 果 应 用 是 有 状态 的 (数据库 事务 ， 网 站 会 话 等 ) ， 那 么 负 
载 均衡 器 就 应 将 相关 的 查询 指向 同一 个 服务 器 ， 以 防止 状态 丢 
失 。 应 用 无 须 去 跟踪 至 到 底 连 接 的 是 哪个 服务 器 。 


在 与 MySQL 相 关 的 领域 里 ， ed tra ale 
紧密 相关 。 你 可 以 把 负载 均衡 和 高 可 用 性 结合 在 一 起 ， 部 署 到 应 用 的 
任 一 层次 上 上。 例如， 可 以 在 MySQL ie 点 上 做 负 
载 均衡 ， 也 可 以 在 多 个 数据 中 心间 做 负载 均衡 ， 其 中 每 个 数据 中 心 又 
可 以 使 用 数据 分 片 架 构 ， 每 个 节点 实际 上 是 拥有 多 个 备 库 的 主 一 主 复 
制 对 结构 ， 这 里 又 可 以 做 负载 均衡 。 对 于 高 可 用 性 策略 也 同样 如 此 : 
在 一 个 以 构 里 可 以 配置 多 层 的 故障 转移 机 制 。 


负载 均衡 有 许多 微妙 之 处 ， 举 个 例子 ， 其 中 一 个 挑战 就 是 管理 读 / 
写 策略 。 有 些 负载 均衡 技术 本 身 能 够 实现 这 一 点 ， 但 其 他 的 则 需要 应 
AB CAS ET rae RASA SY. 


在 决定 如 何 实现 负载 均衡 时 ， 应 该 考虑 到 这 些 因 素 。 有 许多 负载 
均衡 解决 方案 可 以 人 使用， 从 诸如 Wackamole 


(http://www.backhand.org/wackamole/) 这 样 基于 端点 的 (peer-based) 
X M , 到 DNS 、LVS ( Linux Virtual Server ， 
http://www. linuxvirtualserver.org) 、 硬 件 负载 均衡 器 、TCP 代 理 、 
MySQL Proxy， 以 及 在 应 用 中 管理 负载 均衡 。 


在 我 们 的 客户 中 ， 最 普遍 的 策略 是 使 用 硬件 负载 均衡 器 ， 大 多 是 
使 用 HAProxy (http://haproxy.lwt.eu) ， 它 看 起 来 很 流行 并 且 工 作 得 很 
好 。 还 有 一 些 人 使 用 TCP 代 理 ， 例 如 Pen (http://siag.nu/pen/) o {8 
MySQL Proxy 用 得 并 不 多 。 


11.3.1 ”直接 连接 


有 些 人 认为 负载 均衡 就 是 配置 在 应 用 和 MySQL 服 务 器 之 间 的 东 
西 。 但 这 并 不 是 唯一 的 负载 均衡 方法 。 你 可 以 在 保持 应 用 和 MySQL 连 
接 的 情况 下 使 用 负载 均衡 。 事 实 上 ， 集 中 化 的 负载 均衡 系统 只 有 在 存 
在 一 个 对 等 置换 的 服务 器 池 时 才能 很 好 工作 。 如 果 应 用 需要 做 一 些 决 
策 ， 例 如 在 备 库 上 执行 读 操 作 是 否 安全 ， 就 需要 直接 连接 到 服务 器 。 


除了 可 能 出 现 的 一 些 特定 逻辑 ， 应 用 为 负载 均衡 做 决策 是 非常 高 
效 的 。 例 如 ， 如 果 有 两 个 完全 相同 的 备 库 ， 你 可 以 使 用 其 中 的 一 个 来 
处 理 特定 分 片 的 数据 查询 ， 另 一 个 处 理 其 他 的 查询 。 这 样 能 够 有 效 利 
用 备 库 的 内 存 ， 因 为 每 个 备 库 只 会 缓存 一 部 分 数据 。 如 果 其 中 一 个 备 
库 失 效 ， 另 外 一 个 备 库 拥有 所 有 的 数据 ， 仍 然 能 提供 服务 。 


接 下 来 的 小 节 将 讨论 一 些 应 用 直 连 的 常见 方法 ， 以 及 在 评估 每 一 
个 选项 时 的 注意 点 。 


1. 复制 上 的 读 / 写 分 离 


MySQL 复 制 产生 了 多 个 数据 副本 ， 你 可 以 选择 在 备 库 还 是 主 库 上 
执行 查询 。 由 于 备 库 复 制 是 异步 的 ， 因 此 主要 的 难点 是 如 何 处 理 备 库 
上 的 脏 数据 。 应 该 将 备 库 用 作 只 读 的 ， 而 主 库 可 以 同时 处 理 读 和 写 查 
询 。 


通常 需要 修改 应 用 以 适应 这 种 分 离 需求 。 然 后 应 用 就 可 以 使 用 主 
来 进行 写 操 作 ， 并 将 读 操作 分 配 到 主 库 和 备 库 上 ; 如 果 不 太 关心 数 
是 否 是 脏 的 ， 可 以 使 用 备 库 ， 而 对 需要 即时 数据 的 请 求 使 用 主 库 。 
我 们 将 这 称 为 读 / 写 分 离 。 


oe 


一 


如 果 使 用 的 是 主动 一 被 动 模式 的 主 一 主 复制 对 ， 同 样 也 要 考虑 这 
个 问题 。 使 用 这 种 配置 时 ， 只 有 主动 服务 器 接受 写 操作 。 如 果 能 够 接 
受 读 到 脏 数据 ， 可 以 将 读 分 配给 被 动 服务 器 。 


最 大 的 问题 是 如 何 避 免 由 于 读 了 脏 数 据 引 起 的 奇怪 问题 。 一 个 典 
型 的 例子 是 当 一 个 用 户 做 了 某 些 修改 ， 例 如 增加 了 一 条 博客 文章 的 评 
论 ， 然 后 重新 加 载 页 面 ， 但 并 没有 看 到 更 新 ， 因 为 应 用 从 备 库 读 取 到 
了 脏 的 数据 。 


比较 常见 的 读 / 写 分 离 方法 如 下 : 
基于 查询 分 离 


最 简单 的 分 离 方法 是 将 所 有 不 能 容忍 脏 数 据 的 读 和 写 查 询 分 
配 到 主动 或 主 库 服务 器 上 。 其 他 的 读 查 询 分 配 到 备 库 或 被 动 服务 


器 上 。 该 策略 很 容易 实现 ， 但 事实 上 无 法 有 效 地 使 用 备 库 ， 因 为 
只 有 很 少 的 查询 能 容忍 脏 数据 。 


基于 脏 效 据 分 离 


这 是 对 基于 查询 分 离 方法 的 小 改进 。 需 要 做 一 些 额 外 的 工 
作 ， 让 应 用 检查 复制 延迟 ， 以 确定 备 库 数据 是 否 太 旧 。 许 多 报表 
类 应 用 都 使 用 这 个 策略 : 只 需要 晚上 加 载 的 数据 复制 到 备 库 即 
可 ， 它 们 并 不 关心 是 不 是 100% 跟 上 了 主 库 。 


基于 会 话 分 离 


另 一 个 决定 能 否 从 备 库 读数 据 的 稍微 复杂 一 点 的 方法 是 判读 
用 户 自 己 是 否 修 改 了 数据 。 用 户 不 需要 看 到 其 他 用 户 的 最 新 数 
据 ， 但 需要 看 到 自己 的 更 新 。 可 以 在 会 话 层 设置 一 个 标记 位 ， 表 
明 做 了 更 新 ， 就 将 该 用 户 的 查询 在 一 段 时 间 内 总 是 指向 主 库 。 这 
是 我 们 通常 推荐 的 策略 ， 因 为 它 是 在 简单 和 有 效 性 之 间 的 一 种 很 
好 的 妥协 。 


如 果 有 足够 的 想象 力 ， 可 以 把 基于 会 话 的 分 离 方 法 和 复制 延 
迟 监控 结合 起 来 。 如 果 用 户 在 10 秒 前 更 新 了 数据 ， 而 所 有 备 库 延 
述 在 5 秒 内 ， 就 可 以 安全 地 从 备 库 中 读 取 数据 。 但 为 整个 会 话 选 择 
同一 个 备 库 是 一 个 很 好 的 主意 ， 否 则 用 户 可 能 会 奇怪 有 些 备 库 的 
更 新 速度 比 其 他 服务 器 要 慢 。 


基于 版 本 分 离 


这 和 基于 会 话 的 分 离 方法 相似 : 你 可 以 跟踪 对 象 的 版 本 号 以 
及 /或 者 时 间 戳 ， 通 过 从 备 库 读 取 对 象 的 版 本 或 时 间 戳 来 判断 效 据 


是 否 足够 新 。 如 果 备 库 的 数据 太 旧 ， 可 以 从 主 库 获取 最 新 的 数 
据 。 即 使 对 象 本 身 没 有 变化 ， 但 如 果 是 顶层 对 象 ， 只 要 下 面 的 任 
何 对 象 有 变化 ， 也 可 以 增加 版 本 号 ， 这 简化 了 脏 数 据 检 查 (只 需 
要 检查 顶层 对 象 一 处 就 能 判断 是 否 有 更 新 ) 。 例 如 ， 在 用 户 发 表 
了 一 篇 新 文章 后 ， 可 以 更 新 用 户 的 版 本 。 这 样 就 会 从 主 库 去 读 取 
效 据 了 。 


基于 全 局 版 本 /会 话 分 离 


这 个 办 法 是 基于 版 本 分 离 和 基于 会 话 分 离 的 变种 。 当 应 用 执 
行 写 操 作 时 ， 在 提交 事务 后 ， 执 行 一 次 SHOW MASTER STATUS 
操作 。 然 后 在 缓存 中 存储 主 库 日 志 坐 标 ， 作 为 被 修改 对 象 以 及 /或 

会 话 的 版 本 号 。 当 应 用 连接 到 备 库 时 ， 执 行 SHOW SLAVE 
STATUS 并 将 备 库 上 的 坐标 和 缓存 中 的 版 本 号 相对 比 。 如 果 备 库 
相 比 记录 点 更 新 ， 就 可 以 安全 地 读 取 备 库 数 据 。 


大 多 数 读 / 写 分 离 解决 方案 都 需要 监控 复制 延迟 来 决策 读 查 询 的 分 
配 ， 不 管 是 通过 复制 或 负载 均衡 器 ， 或 是 一 个 中 间 系 统 。 如 果 这 人 么 
做 ， 需 要 注意 通过 SHOW SLAVE STATUS 得 到 的 
Seconds_behind_master 列 的 值 并 不 能 准确 地 用 于 监控 延迟 。 (详情 参 
疝 第 10 章 ) 。Percona Toolkit 中 的 pt-heartbeat 工 具 能 够 帮助 监控 延迟 ， 
并 维护 元 数据 ， 例 如 二 进 制 日 志 位 置 ， 这 可 以 减轻 之 前 我 们 讨论 的 一 
些 策略 存在 的 问题 。 


如 果 不 在 乎 用 昂贵 的 硬件 来 承载 压力 ， 也 融 可 以 不 使 用 复制 来 扩 
展 读 操作 ， 这 样 当 然 更 简单 。 这 可 以 避免 在 主 备 上 分 离 读 的 复杂 性 。 
有 些 人 认为 这 很 有 意义 ) 也 有 人 认为 会 滔 费 硬件 。 这 种 分 层 是 由 于 不 
同 的 目的 引起 的 : 你 是 只 需要 可 扩展 性 ， 还 是 要 同时 具有 可 扩展 性 和 


高 利用 率 ? 如 果 需 要 高 利用 率 ， 那 么 备 库 除了 保存 数据 副本 外 还 需要 
承担 其 他 任务 ， 就 不 得 不 处 理 这 些 额 外 的 复杂 度 。 


2. 修改 应 用 的 配置 


还 有 一 个 分 发 负载 的 方法 是 重新 配置 应 用 。 例 如 ， 你 可 以 配置 多 
个 机 器 来 分 担 生 成 大 报表 操作 的 负载 。 每 台 机 器 可 以 配置 成 连接 到 不 
同 的 MySQL 备 库 ， 并 为 第 N 个 用 户 或 网 站 生成 报表 。 


这 样 的 系统 很 容易 实现 ， 但 如 果 需 要 修改 一 些 代码 一 一 包括 配置 
文件 修改 一 一 会 变 得 脆弱 且 难 以 处 理 。 硬 编码 有 着 固有 的 限制 ， 需 要 
在 每 台 服 务 器 上 修改 硬 编码 ， 或 者 在 一 个 中 心服 务 器 上 修改 ， 然 后 通 
过 文件 副本 或 代码 控制 更 新 命令 “发 布 ? 到 其 他 服务 器 上 。 如 果 将 配置 
存储 在 服务 器 或 缓存 中 ， 就 可 以 避免 这 些 麻 烦 。 


3. 修改 DNS 名 


这 是 一 个 比较 粗糙 的 负载 均衡 技术 ， 但 对 于 一 些 简单 的 应 用 ， 为 
不 同 的 目的 创建 DNS 还 是 很 实用 的 。 你 可 以 为 不 同 的 服务 器 指定 一 个 
合适 的 名 字 。 最 简单 的 方法 是 只 读 服务 器 拥有 一 个 DNS 名 ， 而 给 负责 
写 操 作 的 服务 器 起 另外 一 个 DNS 名 。 如 果 备 库 能 够 跟 上 主 库 ， 那 融 把 
只 读 DNS 名 指定 给 备 库 ， 当 出 现 延迟 时 ， 再 将 该 DNS 名 指定 给 主 库 。 


这 种 DNS 技术 非常 容易 实现 ， 但 也 有 很 多 缺点 。 最 大 的 问题 是 
法 完全 控制 DNS。 


修改 DNS 并 不 是 立刻 生效 的 ， 也 不 是 原子 的 。 将 DNS 的 变化 传递 
到 整个 网 络 或 在 网 络 间 传 播 都 需要 比较 长 的 时 间 。 

DNS 数据 会 在 各 个 地 方 缓存 下 来 ， 它 的 过 期 时 间 是 建议 性 质 的 ， 
而 非 强 制 的 。 

可 能 需要 应 用 或 服务 器 重启 才能 使 修改 后 的 DNS 完全 生效 。 

多 个 IP 地 址 共用 一 个 DNS 名 并 依赖 于 轮 询 行为 来 均衡 请 求 ， 这 并 
不 是 一 个 好 主意 。 因 为 轮 询 行为 并 不 总 是 可 预知 的 。 
DBA 可 能 没有 权限 直接 访问 DNS。 


除非 应 用 非常 简单 ， 否 则 依赖 于 不 受 控制 的 系统 会 非常 危险 。 你 
可 以 通过 修改 /etchosts 文 件 而 非 DNS 来 改善 对 系统 的 控制 。 当 发 布 一 
个 对 该 文件 的 更 新 时 ， 会 知道 该 变更 已 经 生效 。 这 比 等 待 缓存 的 DNS 
失效 要 好 得 多 。 但 这 仍然 不 是 理想 的 办 法 。 


我 们 通常 建议 人 们 构建 一 个 完全 不 依赖 DNS 的 应 用 。 即 使 应 用 很 
简单 也 适用 ， 因 为 你 无 法 预知 应 用 会 增长 到 多 大 规模 。 


4。 转 移 IP 地 址 


一 些 负载 均衡 解决 方案 依赖 于 在 服务 器 间 转 移 虚 拟 地 址 由， 一 般 
能 够 很 好 地 工作 。 这 听 起 来 和 修改 DNS 很 像 ， 但 完全 是 两 码 事 。 服 务 
器 不 会 根据 DNS 名 去 监听 网 络 流量 ， 而 是 根据 指定 的 IP 地 址 去 监听 流 
量 ， 所 以 转移 IP 地 址 允许 DNS 名 保持 不 变 。 你 可 以 通过 ARP (地 址 解 
析 协 议 ) 命令 强制 使 IP 地 址 的 更 改 快速 而 且 原 子 性 地 通知 到 网 络 上 。 


我 们 看 过 的 使 用 最 普遍 的 技术 是 Pacemaker， 这 是 Linux-HA 项 目 
的 Heartbeat 工 具 的 继承 者 。 你 可 以 使 用 单个 IP 地 址 ， 为 其 分 配 一 个 角 


色 ， 例 如 read-only， 当 需要 在 机 器 间 转 移 耳 地址 时 ， 它 能 够 感知 到 。 
其 他 类 似 的 工具 包括 LVS 和 Wackamole。 


一 个 比较 方便 的 技术 是 为 每 个 物理 服务 器 分 配 一 个 固定 的 耻 地 
址 。 该 下地 址 固定 在 服务 器 上 ， 不 再 改变 。 然 后 可 以 为 每 个 逻辑 上 的 
“服务 ”使 用 一 个 虚拟 IP 地 址 。 它 们 能 够 很 方便 地 在 服务 器 间 转 移 ， 这 
使 得 转移 服务 和 应 用 实例 无 须 再 重新 配置 应 用 ， 因 此 更 加 容易 。 即 使 
不 怎么 经 常 转移 IP 地 址 ， 这 也 是 一 个 很 好 的 特性 。 


11.3.2 引入 中 间 件 


ESHE, 我们 所 讨论 的 方案 都 假定 应 用 跟 MySQL 服 务 器 是 直接 
相连 的 。 但 是 许多 负载 均衡 解决 方案 都 会 引入 一 个 中 间 件 ， 作 为 网 络 
通信 的 代理 。 它 一 边 接受 所 有 的 通信 请 求 ， 另 一 边 将 这 些 请 求 派发 到 
指定 的 服务 器 上 ， 然 后 把 执行 结果 发 送 回 请 求 的 机 器 上 。 中 间 件 可 以 
是 硬件 设备 或 是 软件 42)。 图 11-10 描 述 了 这 种 架构 。 这 种 解决 方案 通 
常 能 工作 得 很 好 ， 当 然 除非 为 负载 均衡 器 本 身 增加 见 余 ， 这 样 才能 避 
免 单 点 故障 引起 的 整个 系统 瘫痪 。 从 开源 软件 ， 如 HAProxy， 到 许多 
广为人知 的 商业 系统 ， 有 许多 负载 均衡 器 得 到 了 成 功 的 应 用 。 
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图 11-10: 作为 中 间 件 的 负载 均衡 器 


1. 


负载 均衡 器 


在 市 场 上 有 许多 负载 均衡 硬件 和 软件 ， 但 很 少 有 专门 为 MySQL 服 


务 器 设计 的 4)。Web 服 务 器 通常 更 需要 负载 均衡 ， 因 此 许多 多 用 途 的 
负载 均衡 设备 都 会 支持 HTTP， 而 对 其 他 用 途 则 只 有 一 些 很 少 的 基本 特 


性 。 


MySQL 连 接 都 只 是 正常 的 TCP/IP 连 接 ， 所 以 可 以 在 MySQL 上 使 


用 多 用 途 负 载 均 衡器 。 但 由 于 缺少 MySQL 专 有 的 特性 ， 因 此 会 多 一 些 
限制 |。 


除非 负载 均衡 器 知道 MySQL 的 真实 负载 ， 否 则 在 分 发 请 求 时 可 能 
无 法 做 到 很 好 的 负载 均衡 。 不 是 所 有 的 请 求 都 是 等 同 的 ， 但 多 用 
途 负 载 均 衡器 通常 对 所 有 的 请 求 一 视 同 仁 。 

许多 负载 均衡 器 知道 如 何 检查 一 个 HTTP 请 求 并 把 会 话 “ 固 定 ” 到 一 
个 服务 器 上 以 保护 在 Web 服务器 上 的 会 话 状态 。MySQL 连 接 也 是 
有 状态 的 ， 但 负载 均衡 器 可 能 并 不 知道 如 何 把 所 有 从 单个 HTTP 会 
话 发 送 的 连接 请 求 “ 固 定 ” 到 一 个 MySQL 服 务 器 上 。 这 会 损失 一 部 
分 效率 。 (如 果 单 个 会 话 的 请 求 都 是 发 到 同一 个 MySQL 服 务 器 ， 
服务 器 的 缓存 会 更 有 效率 。) 

连接 池 和 长 连接 可 能 会 阻碍 负载 均衡 器 分 发 连接 请 求 。 例 如 ， 假 
如 一 个 连接 池 打开 了 预先 配置 好 的 连接 数 ， 负 载 均衡 器 在 已 有 的 
四 个 MySQL 服 务 器 上 分 发 这 些 连接 。 现 在 增加 了 两 个 以 上 的 
MySQL 服 务 器 。 由 于 连接 池 不 会 请 求 新 连接 ， 因 而 新 的 服务 器 会 
一 直 空 亲 着 。 池 中 的 连接 会 在 服务 器 间 不 公平 地 分 配 负载 ， 导 致 
一 些 服务 器 超出 负载 ， 一 些 则 几乎 没有 负载 。 可 以 在 多 个 层面 为 
连接 设置 失效 时 间 来 缓解 这 个 问题 ， 但 这 很 复杂 并 且 很 难 做 到 。 
连接 池 方 案 只 有 它们 本 身 能 够 处 理 负载 均衡 时 才能 工作 得 很 好 。 


。 许多 多 用 途 负 载 均衡 器 只 会 针对 HTTP 服 务 器 做 健康 和 负载 检查 。 
一 个 简单 的 负载 均衡 器 最 少 能 够 核实 服务 器 在 一 个 TCP 端 口上 接 
受 的 连接 数 。 更 好 的 负载 均衡 器 能 够 自动 发 起 一 个 HTTP 请 求 ， 并 
检查 返回 值 以 确定 这 个 Web 服 务 器 是 否 正 常 运转 。MySQL 并 不 接 
受到 3306 端 口 的 HTTP 请 求 ， 因 此 需要 自己 来 构建 健康 检查 方法 。 
你 可 以 在 MySQL 服 务 器 上 安装 一 个 HTTP 服务 器 软件 ， 并 将 负载 
均衡 器 指向 一 个 脚本 ， 这 个 脚本 检查 MySQL 服 务 器 的 状态 并 返回 
一 个 对 应 的 状态 值 ( 汶 。 最 重要 的 是 检查 操作 系统 负载 (通过 查 
看 /proc/loadavg) 、 复 制 状 态 ， 以 及 MySQL 的 连接 数 。 


2. 负载 均衡 算法 


有 许多 算法 用 来 决定 哪个 服务 器 接受 下 一 个 连接 。 每 个 广 商 都 有 
各 自 不 同 的 算法 ， 下 面 这 个 清单 列 出 了 一 些 可 用 的 方法 : 
随机 


负载 均衡 器 随机 地 从 可 用 的 服务 器 池 中 选择 一 个 服务 器 来 处 
理 请 求 。 


轮 询 
负载 均衡 器 以 循环 顺序 发 送 请 求 到 服务 器 ， 例 如: A, B, 
C, A, B, Co 
最 少 连 接 数 


下 一 个 连接 请 求 分 配给 拥有 最 少 活跃 连接 的 服务 器 。 


最 快 响应 


能 够 最 快 处 理 请 求 的 服务 器 接受 下 一 个 连接 。 当 服务 器 闻 里 
同时 存在 快速 和 慢 速 服务 器 时 ， 这 很 有 效 。 即 使 同样 的 查询 在 不 
同 的 场景 下 运行 也 会 有 不 同 的 表现 ， 例 如 当 查询 结果 已 经 缓存 在 
查询 缓存 中 ， 或 者 服务 器 缓存 中 已 经 包含 了 所 需要 的 数据 时 。 


哈 希 


负载 均衡 器 通过 连接 的 源 IP 地 址 进行 哈 希 ， 将 其 映射 到 池 中 
的 同一 个 服务 器 上 。 每 次 从 同一 个 IP 地 址 发 起 请 求 ， 负 载 均衡 器 
都 会 将 请 求 发 送 给 同样 的 服务 器 。 只 有 当 闻 中 服务 器 数目 改变 时 
这 种 绑 定 才 会 发 生变 化 。 


权重 


负载 均衡 器 能 够 结合 使 用 上 述 几 种 算法 。 例 如 ， 你 可 能 拥有 
单 CPU 和 双 CPU 的 机 器 。 双 CPU 机 器 有 接近 两 倍 的 性 能 ， 所 以 可 
以 让 负载 均衡 器 分 派 两 倍 的 请 求 给 双 CPU 机 器 。 


哪 种 算法 最 优 取决 于 具体 的 工作 负载 。 例 如 最 少 连接 算法 ， 如 果 
有 新 机 器 加 入 ， 可 能 会 有 大 量 连接 涌 入 该 服务 器 ， 而 这 时 候 它 的 缓存 
还 没有 包含 热 数 据 。 本 书 第 一 版 的 作者 曾经 亲身 体验 了 这 种 情况 。 


你 需要 通过 测试 来 为 你 的 工作 负载 找到 最 好 的 性 能 。 除 了 正常 的 
日 浊 运 转 ， 还 需要 考虑 极端 情况 。 在 比较 极端 的 情况 下 一 一 例如 负载 
升 高 ， 修 改 模 式 ， 或 者 多 台 服 务 器 下 线 一 一 至 少 要 避免 系统 出 现 重 大 


错误 。 


我 们 这 里 只 描述 了 即时 处 理 请 求 的 算法 ， 无 须 对 连接 请 求 排队 。 
但 有 时 候 使 用 排队 算法 可 能 更 有 效 。 例 如 ， 一 个 算法 可 能 只 维护 给 定 
的 效 据 库 服 务 器 并 发 效 目 ， 同 一 时 刻 只 人 允许 不 超过 N 个 活跃 事务 。 如 
果 有 太 多 的 活跃 事务 ， 就 将 新 的 请 求 放 到 一 个 队列 里 ， 然 后 让 可 用 服 
务 器 列表 的 第 一 个 来 处 理 它 。 有 些 连 接 闻 也 支持 队列 算法 。 


3. 在 服务 器 闻 中 增加 / 移 除 服 务 器 


增加 一 个 服务 器 到 池 中 并 不 是 简单 地 插入 进去 ， 然 后 通知 负载 均 
衡器 融 可 以 了 。 你 可 能 以 为 只 要 不 是 一 下 子 痛 进 大 量 连 接 请 求 就 可 以 
了 ， 但 并 不 一 定 如 此 。 有 时 候 你 会 缓慢 增加 一 台 服 务 器 的 负载 ， 但 一 
些 缓存 还 是 “ 冷 ” 的 服务 器 可 能 会 慢 到 在 一 段 时 间 内 都 无 法 处 理 任何 的 
用 户 请 求 。 如 果 用 户 浏览 一 个 页 面 需 要 30 秒 才能 返回 数据 ， 即 使 流量 
很 小 ， 这 个 服务 器 也 是 不 可 用 的 。 有 一 个 方法 可 以 避免 这 个 问题 ， 在 
通知 负载 均衡 器 有 新 服务 器 加 入 前 ， 可 以 暂时 把 SELECT 查询 映射 到 
一 台 活 跃 服务 器 上 。 然 后 在 新 开启 的 服务 器 上 读 取 和 重 放 活 跃 服务 器 
上 的 日 志文 件 ， 或 者 捕捉 生产 服务 器 上 的 网 络 通信 ， 并 重 放 它 的 一 部 
分 查询 。Percona Toolkit 中 的 pt-query-digest 工 具 能 够 有 所 帮助 。 另 一 个 
有 效 的 办 法 是 使 用 Percona Server 或 MySQL 5.6 的 快速 预 热 特性 。 


在 配置 连接 池 中 的 服务 器 时 ， 要 保证 有 足够 多 未 使 用 的 容量 ， 以 
备 在 撤 下 服务 器 做 维护 时 使 用 ， 或 者 当 服务 器 失效 时 可 以 派 上 用 场 。 
每 台 服 务 器 上 都 应 该 保留 高 于 “足够 ”的 容量 。 


要 确保 配置 的 限制 值 足够 高 ， 即 使 从 池 中 撤 出 一 些 服务 器 也 能 够 
工作 。 举 个 例子 ， 如 果 你 发 现 每 个 MySQL 服 务 器 一 般 有 100 个 连接 ， 


应 该 设置 池 中 每 个 服务 器 的 max_connections 值 为 200。 这 样 就 算 一 半 的 
服务 器 失效 ， 服 务 器 闻 整 体 也 能 处 理 同样 数量 的 请 求 。 


11.3.3 ”一 主 多 备 间 的 负载 均衡 


ax rp LAYS PF Mame TERMS TBR. RRMA 
这 个 架构 。 许 多 应 用 都 假设 只 有 一 个 目标 机 器 用 于 所 有 的 写 操作 ， 或 
者 所 有 的 数据 都 可 以 从 单个 服务 器 上 获得 。 尽 管 这 个 架构 不 太 具 有 很 
好 的 可 扩展 性 ， 但 可 以 通过 一 些 办 法 结合 负载 均衡 来 获得 很 好 的 效 
果 。 本 小 节 将 讲述 其 中 的 一 些 技术 。 


功能 分 区 


正如 之 前 讨论 的 ， 对 于 特定 的 目的 可 以 通过 配置 备 库 或 一 组 
备 库 来 极 大 地 扩展 容量 。 一 些 比较 常见 的 功能 包括 报表 、 分 析 、 
数据 仓库 ， 以 及 全 文 检索 。 在 第 10 章 有 更 多 的 细节 。 


过 滤 和 数据 分 区 


可 以 使 用 复制 过 滤 技 术 在 相似 的 备 库 上 对 数据 进行 分 区 ( 参 
考 第 10 章 ) 。 只 要 数据 在 主 库 上 已 经 被 隔离 到 不 同 的 数据 库 或 表 
中 ， 这 种 方法 就 可 以 奏效 。 不 乎 的 是 ， 没 有 内 建 的 办 法 在 行 级 别 
上 进行 复制 过 滤 。 你 需要 使 用 一 些 独创 性 的 技术 来 实现 这 一 点 ， 
例如 使 用 触发 器 和 一 组 不 同 的 表 。 


即使 不 把 数据 分 区 到 各 个 备 库 上 ， 也 可 以 通过 对 读 进 行 分 区 
而 不 是 随机 分 配 来 提高 缓存 效率 。 例 如 ， 可 以 把 对 以 字母 A 一 M 


开头 的 用 户 名 的 读 操作 分 配给 一 个 给 定 的 备 库 ， 把 以 N 一 2 开头 的 
分 配给 另外 一 个 。 这 能 够 更 好 地 利用 每 台 机 器 的 缓存 ， 因 为 分 离 
读 更 可 能 在 缓存 中 找到 相关 的 数据 。 最 好 的 情况 下 ， 当 没有 写 操 
作 时 ， 这 样 使 用 的 缓存 相当 于 两 台 服 务 器 缓存 的 总 和 。 相 比 之 
下 ， 如 果 随 机 地 在 备 库 上 分 配 读 操作 ， 每 个 机 器 的 缓存 本 质 上 还 
是 重复 的 数据 ， 而 总 的 有 效 缓存 效率 和 一 个 备 库 缓 存 一 样 ， 不 管 
你 有 多 少 台 备 库 。 


将 部 分 写 操 作 转 移 到 备 库 


主 库 并 不 总 是 需要 处 理 写 操作 中 的 所 有 工作 。 你 可 以 分 解 写 
查询 ， 并 在 备 库 上 执行 其 中 的 一 部 分 ， 从 而 显著 减少 主 库 的 工作 
量 。 更 多 内 容 参 见 第 10 章 。 


保证 备 库 跟 上 主 库 


如 果 要 在 备 库 执行 某 种 操作 ， 它 需要 即时 知道 数据 处 于 哪个 
时 间 点 一 一 哪怕 需要 等 待 一 会 儿 才 能 到 达 这 个 点 一 一 可 以 使 用 疗 
数 MASTER_POS_WAITO 阻 塞 直 到 备 库 赶 上 了 设置 的 主 库 同 步 
点 。 男 一 种 替代 方案 是 使 用 复制 心跳 来 检查 延迟 情况 ， 更 多 内 容 
参见 第 10 章 。 


同步 写 操作 


也 可 以 使 用 MASTER_POS_WAIT0O 函 数 来 确保 写 操作 已 经 被 
同步 到 一 个 或 多 个 备 库 上 。 如 果 应 用 需要 模拟 同步 复制 来 保证 数 
据 安全 性 ， 就 可 以 在 多 个 备 库 上 轮流 执行 MASTER_POS_WAIT0 
国 数 。 这 就 类 似 创 建 了 一 个 “同步 屏障 ”， 当 任意 一 个 备 库 出 现 复 


制 延 迟 时 ， 都 可 能 花费 很 长 时 间 完 成 ， 所 以 最 好 在 确实 需要 的 时 
候 才 使 用 这 种 方法 。 (如 果 你 的 目的 只 是 确保 某 些 备 库 拥有 事 
件 ， 可 以 只 等 待 一 台 备 库 接 收 到 事件 。MySQL 5.5 增 加 了 半 同 步 
复制 ， 能 够 支持 这 项 技术 。 ) 


11.4 ”总 结 


正确 地 扩展 MySQL 并 没有 看 起 来 那么 美好 。 从 第 一 天 就 建立 下 一 
个 Facebook 架 构 ， 这 并 不 是 正确 的 方式 。 最 好 的 策略 是 实现 应 用 所 明 
确 需要 的 ， 并 为 可 能 的 快速 增长 做 好 预先 规划 ， 成 功 的 规划 是 可 以 为 
任何 必要 的 措施 筹集 资金 以 满足 需求 。 


为 可 扩展 性 制定 一 个 数学 意义 上 的 定义 是 很 有 意义 的 ， 就 像 为 性 
能 制定 了 一 个 精确 概念 一 样 。USL 能 够 提供 一 个 有 帮助 的 框架 。 如 果 
知道 系统 无 法 做 到 线性 扩展 是 因为 诸如 序列 化 或 交互 操作 的 开销 ， 将 
可 以 帮助 你 避免 将 这 些 问题 带 入 到 应 用 中 。 同 时 ， 许 多 可 扩展 性 问题 
并 不 是 可 以 从 数学 上 定义 的 ; 可 能 是 由 于 组 织 内 部 的 问题 ， 例 如 缺少 
团队 协作 或 其 他 不 适当 的 问题 。Neil J. Gunther 博 士 所 写 的 Guerrilla 
Capacity Planning 以 及 Eliyahu M. Goldratt 写 的 The Goal 可 以 帮助 有 兴趣 
的 读者 了 解 为 什么 系统 无 法 扩展 。 


在 MySQL 扩 展 策略 方面 ， 典 型 的 应 用 在 增长 到 非常 庞大 时 ， 通 常 
先 从 单个 服务 器 转移 到 向 外 扩展 的 拥有 读 备 库 的 架构 ， 青 到 数据 分 片 
和 /或 者 按 功能 分 区 。 我 们 并 不 同意 那些 提倡 为 每 个 应 用 “尽早 分 片 ， 
尽量 分 片 ” (shard early, shard often) 的 建议 。 这 很 复杂 且 代 价 昂 贵 ， 
并 且 许 多 应 用 可 能 根本 不 需要 。 可 以 花 一 些 时 间 去 看 看 新 的 硬件 和 新 
版 本 的 MySQL 有 哪些 变化 ， 或 者 MySQL Cluster 有 哪些 新 的 进展 ， 甚 


至 去 评估 一 些 专门 的 系统 ， 例 如 Clustrix。 毕 竟 数 据 分 片 是 一 个 手工 搭 
建 的 集群 系统 ， 如 果 没有 必要 ， 最 好 不 要 重复 友 明 轮子 。 


当 存 在 多 个 服务 器 时 ， 可 能 出 现 跟 一 致 性 或 原子 性 相关 的 问题 。 
我 们 看 到 的 最 普遍 的 问题 是 缺少 会 话 一 致 性 (在 网 站 上 发 表 一 篇 评 
论 ， 刷 新 页 面 ， 但 找 不 到 刚刚 发 布 的 评论 ; ， 或 者 无 法 有 效 告诉 应 用 
哪些 服务 器 是 可 写 的 ， 哪 些 是 可 读 的 。 后 一 种 可 能 更 严重 ， 如 果 将 应 
用 的 写 操 作 指 向 多 个 地 方 ， 束 会 不 可 避免 地 遭遇 数据 问题 ， 需 要 花费 
大 量 时 间 而 且 很 难 解决 。 负 载 均 衡器 可 以 解决 这 个 问题 ， 但 它 本 身 也 
有 一 些 问题 ， 有 时 候 还 会 使 得 原本 希望 解决 的 问题 恶化 。 这 也 是 我 们 
在 下 一 章 要 讲述 高 可 用 性 的 原因 。 


(1) 从 物理 学 来 看 ， 单 位 时 间 内 做 的 功 称 为 功率 (power) ， 而 在 计算 机 领域 ,，“power” 是 
一 个 被 反复 使 用 的 术语 ， 含 义 模糊 ， 因 此 应 避免 使 用 它 。 但 是 关于 容量 的 精确 定义 是 系统 的 
最 大 功率 输出 。 

(2) Justin Bieber, 我 们 仍然 爱 你 ! 

(3) BRL, “投资 产 出 率 ” 也 可 以 从 金融 投资 的 角度 来 考虑 。 将 一 个 组 件 的 容量 升级 到 两 
倍 所 需要 付出 的 常常 不 止 是 最 初 开销 的 两 倍 。 虽 然 在 现实 世界 里 我 们 常常 这 么 考虑 ， 但 在 讨 
论 中 会 将 其 忽略 掉 ， 因 为 它 会 使 一 个 已 经 复杂 的 主题 变 得 更 加 复杂 。 

(4) 你 也 可 以 阅读 我 们 的 白皮书 “Forecasting MySQL Scalability with the Universal Scalability 
Law”， 该 书 扰 要 地 总 结 了 USL 中 的 数学 运算 和 法 则 ， 可 以 从 http:/www.percona.com 获 得 。 

(5) 现实 中 很 难 精 确定 义 硬件 的 可 扩展 性 ， 因 为 当 你 改变 你 的 系统 中 的 服务 器 数量 时 很 难 
保证 那些 变量 不 变 。 

(6) 我 们 避免 使 用 措辞 “web 扩 展 ” (web scale) ， 因 为 它 已 经 变 得 毫 无 意义 ， 参 阅 
http://www.xtranormal.com/ watch/6995033/> 

(2) 分 片 也 被 称 为 “分 裂 人 “分 区 ”， 但 是 我 们 使 用 “分 片 " 以 避免 混淆 。 谷 歌 将 它 称 为 “分 
片 "”， 如 果 谷 歌 觉 得 这 样 称呼 合适 ， 我 们 采取 这 种 称呼 也 就 合适 了 。 

(8) 这 里 的 “函数 ”使 用 了 其 数学 涵义 ， 表 示 从 输入 GR) 到 输出 (KE) 的 映射 。 如 你 所 
见 ， 可 以 用 很 多 方式 来 创建 类 似 的 函数 ， 包 括 在 数据 库 中 使 用 查找 表 。 


(9) Yeah, yeah, 我 们 知道 ， 为 你 的 工作 选择 正确 的 工具 。 这 里 引用 显而易见 但 听 起 来 很 有 
意义 的 评论 。 

(10) 我 们 将 Akiban 包 含 在 集群 数据 库 列 表 中 可 能 并 不 准确 ， 因 为 它 并 不 是 真正 的 集群 数 
据 库 。 但 在 某 种 程度 上 它 和 其 他 一 些 NewSQL 数 据 库 很 像 。 

(11) 虚拟 IP 地 址 不 是 直接 连接 到 任何 特定 的 计算 机 或 网 络 端口 ， 而 是 “漂浮 * 在 计算 机 之 
间 ]。 

(了 2) 你 可 以 把 诸如 LVS 这 样 的 解决 方案 配置 成 只 有 应 用 需要 创建 一 个 新 连接 时 才 参 与 进 
来 ， 此 后 不 再 作为 中 间 件 。 

(13) MySQL Proxy 是 个 例外 ， 但 目前 还 未 能 证 明 能 够 很 好 地 工作 ， 因 为 它 会 带 来 一 些 问 
题 ， 例 如 延迟 增加 以 及 可 扩展 性 瓶颈 。 

(14) 实际 上 ， 如 果 能 编码 实现 一 个 监听 80 端 口 的 程序 ， 或 者 配置 xinetd 来 调用 程序 ， 甚 至 
不 需要 再 安装 一 个 Web 服 务 器 。 


第 12 章 ”高 可 用 性 


本 章 将 讲述 我 们 提 到 的 复制 、 可 扩展 性 以 及 高 可 用 性 三 个 主题 中 
的 第 三 个 。 归 根 结 底 ， 高 可 用 性 实际 上 意味 着 “更 少 的 宕 机 时 间 ”。 然 
而 糟糕 的 是 ， 高 可 用 性 经 常 和 其 他 相关 的 概念 混淆 ， 例 如 见 余 、 保 障 
数据 不 丢失 ， 以 及 负载 均衡 。 我 们 希望 之 前 的 两 章 已 经 为 清楚 地 理解 
高 可 用 性 做 了 足够 的 铺垫 。 跟 其 他 两 章 一 样 ， 这 一 章 也 不 仅仅 是 关注 
高 可 用 性 的 内 容 ， 一 些 相关 的 话题 也 会 综合 阐述 。 


12.1 什么 是 高 可 用 性 


高 可 用 性 实际 上 有 点 像 神秘 的 野兽 。 它 通常 以 百分比 表示 ， 这 本 
身 也 是 一 种 暗示 : 高 可 用 性 不 是 绝对 的 ， 只 有 相对 更 高 的 可 用 性 。 
100% 的 可 用 性 是 不 可 能 达到 的 。 可 用 性 的 “9” 规 则 是 表示 可 用 性 目标 
最 普遍 的 方法 。 你 可 能 也 知道 ，“5 个 9” 表 示 99.999% 的 正常 可 用 时 
间 。 换 句 话说 ， 每 年 只 允许 5 分 钟 的 宕 机 时 间 。 对 于 大 多 数 应 用 这 已 经 
是 令 人 惊叹 的 数字 ， 尽 管 还 有 一 些 人 试图 获得 更 多 的 “9”。 


每 个 应 用 对 可 用 性 的 需求 各 不 相同 。 在 设 定 一 个 可 用 时 间 的 目标 
之 前 ， 先 问 问 自 己 ， 是 不 是 确实 需要 达到 这 个 目标 。 可 用 性 每 提高 一 
点 ， 所 花费 的 成 本 都 会 远 超 之 前 ， 可 用 性 的 效果 和 开销 的 比例 并 不 是 
线性 的 。 需 要 保证 多 少 可 用 时 间 ， 取 决 于 能 够 承担 多 少 成 本 。 高 可 用 
性 实际 上 是 在 宕 机 造成 的 损失 与 降低 宕 机 时 间 所 花费 的 成 本 之 间 取 一 
个 平衡 。 换 句 话说 ， 如 果 需 要 化 大 量 金钱 去 获得 更 好 的 可 用 时 间 ， 但 
所 带 来 的 收益 却 很 低 ， 可 能 就 不 值得 去 做 。 总 的 来 说 ， 应 用 在 超过 一 
定 的 点 以 后 追求 更 高 的 可 用 性 是 非常 困难 的 ， 成 本 也 会 很 高 ， 因 此 我 


们 建议 设 定 一 个 更 现实 的 目标 并 且 避 免 过 度 设计 。 季 运 的 是 ， 建 立 2 个 
9 或 3 个 9 的 可 用 时 间 的 目标 可 能 并 不 困难 ， 有 具体 情况 取决 于 应 用 。 


有 时 候 人 们 将 可 用 性 定义 成 服务 正在 运行 的 时 间 段 。 我 们 认为 可 
用 性 的 定义 还 应 该 包括 应 用 是 否 能 以 足够 好 的 性 能 处 理 请 求 。 有 许多 
方法 可 以 让 一 个 服务 器 保持 运行 ， 但 服务 并 不 是 真正 可 用 。 对 一 个 很 
大 的 服务 器 而 言 ， 重 局 MySQL 之 后 ， 可 能 需要 几 个 小 时 才能 充分 预 热 
以 保证 查询 请 求 的 响应 时 间 是 可 以 接受 的 ， 即 使 服务 器 只 接收 了 正常 
流量 的 一 小 部 分 也 是 如 此 。 


另 一 个 需要 考虑 的 问题 是 ， 即 使 应 用 并 没有 停止 服务 ， 但 是 否 5 
能 丢失 了 数据 。 如 果 服 务 器 遭遇 灾难 性 故障 ， 可 能 多 少 都 会 丢失 一 些 
数据 ， 例 如 最 近 已 经 写 入 (最 新 丢失 的 ) 二 进 制 日 志 但 尚未 传递 到 备 
库 的 中 继 日 志 中 的 事务 。 你 能 够 容忍 吗 ? 大 多 数 应 用 能 够 容忍 ， 因为 
替代 方案 大 多 非常 昂贵 且 复 杂 ， 或 者 有 一 些 性 能 开销 。 例 如 ， 可 以 使 
用 同步 复制 ， 或 是 将 二 进 制 日 志 放 到 一 个 通过 DRBD 进 行 复制 的 设备 
上 ， 这 样 就 算 服 务 器 完全 失效 也 不 用 担心 丢失 数据 。 (但 是 整个 数据 
中 心 也 有 可 能 会 掉 电 。) 


一 个 恨 好 的 应 用 架构 通常 可 以 降低 可 用 性 方面 的 需求 ， 至 少 对 部 
分 系统 而 言 是 这 样 的 ， 良 好 的 架构 也 更 容易 做 到 高 可 用 。 将 应 用 中 重 
要 和 不 重要 的 部 分 进行 分 离 可 以 节约 不 少 工 作 量 和 金钱 ， 因 为 对 于 一 
个 更 小 的 系统 改进 可 用 性 会 更 容易 。 可 以 通过 计算 “风险 敞 口 (risk 
exposure) ”， 将 失效 概率 与 失效 代价 相 乘 来 确认 高 优先 级 的 风险 。 男 
一 个 简单 的 风险 计算 表 ， 以 概率 、 代 价 和 风险 改口 作为 列 ， 这 样 很 容 
易 找到 需要 优先 处 理 的 项 目 。 


在 前 一 章 我 们 通过 讨论 如 何 避 免 导致 糟糕 的 可 扩展 性 的 原因 ， 来 
推出 如 何 获得 更 好 的 可 扩展 性 。 这 里 也 会 使 用 相似 的 方法 来 讨论 可 用 
性 ， 因 为 我 们 相信 ， 理 解 可 用 性 最 好 的 方法 就 是 研究 它 的 反面 一 一 宕 
机 时 间 。 接 下 来 的 小 节 我 们 会 讨论 为 什么 会 出 现 宕 机 。 


12.2 ”导致 宕 机 的 原因 


我 们 经 常 听 到 导致 数据 库 宕 机 最 主要 的 原因 是 编写 的 SQL 查 询 性 
能 很 差 ， 真 的 是 这 样 吗 ?”2009 年 我 们 决定 分 析 我 们 客户 的 数据 库 所 遇 
到 的 问题 ， 以 找 出 那些 真正 引起 宕 机 的 问题 ， 以 及 如 何 避 人 免 这 些 问题 
(。 结 果 证 实 了 一 些 我 们 已 有 的 猜想 ， 但 也 否定 了 一 些 (错误 的 ) 认 
识 ， 我 们 从 中 学 到 了 很 多 。 


我 们 首先 对 宕 机 事件 按 表 现 方式 而 非 导 致 的 原因 进行 分 类 。 一 上 般 
来 说 ,“ 运 行 环境 ?是 排名 第 一 的 宕 机 类 别 ， 大 约 35% 的 事件 属于 这 一 
类 。 运 行 环境 可 以 看 作 是 支持 数据 库 服务 器 运行 的 系统 和 资源 集合 ， 
包括 操作 系统 、 硬 盘 以 及 网 络 等 。 性 能 问题 紧 随 其 后 ， 也 是 约 占 
35%， 然 后 是 复制 ， 占 20%;， 最 后 剩 下 的 10% 包 含 各 种 类 型 的 数据 丢 
失 或 损坏 ， 以 及 其 他 问题 。 


我 们 对 事件 按 类 型 进行 分 类 后 ， 确 定 了 导致 这 些 事件 的 原因 。 以 
下 是 一 些 需 要 注意 的 地 方 : 


。 在 运行 环境 的 问题 中 ， 最 普遍 的 问题 是 磁盘 空间 耗 尽 。 

。 在 性 能 问题 中 ， 最 普遍 的 宕 机 原因 确实 是 运行 很 糟糕 的 SQL， 但 
也 不 一 定 都 是 这 个 原因 ， 比 如 也 有 很 多 问题 是 由 于 服务 器 Bug 或 
错误 的 行为 导致 的 。 


。 糟糕 的 Schema 和 索引 设计 是 第 二 大 影响 性 能 的 问题 。 

。 复制 问题 通 钊 由 于 主 备 数据 不 一 致 导致 。 

。 数据 丢失 问题 通常 由 于 DROP TABLE 的 误 操作 导致 ， 并 总 是 伴随 
着 缺少 可 用 备份 的 问题 。 


复制 虽然 常 被 人 们 用 来 改善 可 用 时 间 ， 但 却 也 可 能 导致 宕 机 。 这 
主要 是 由 于 不 正确 的 使 用 导致 的 ， 即 便 如 此 ， 它 也 阐明 了 一 个 普遍 的 
情况 : 许多 高 可 用 性 策略 可 能 会 产生 反作用 ， 我 们 会 在 后 面 讨论 这 个 


话题 。 


现在 我 们 已 经 知道 了 主要 宕 机 类 别 ， 以 及 有 什么 需要 注意 ， 下 面 
我 们 将 专门 介绍 如 何 获 得 高 可 用 性 。 


12.3 ”如 何 实现 高 可 用 性 


可 以 通过 同时 进行 以 下 两 步 来 获得 高 可 用 性 。 首 先 ， 可 以 尝试 避 
免 导致 宕 机 的 原因 来 减少 宕 机 时 间 。 许 多 问题 其 实 很 容易 避免 ， 例 如 
通过 适当 的 配置 、 监 控 ， 以 及 规范 或 安全 保障 措施 来 避免 人 为 错误 。 
第 二 ， 尽 量 保证 在 发 生 宕 机 时 能 够 快速 恢复 。 最 常见 的 策略 是 在 系统 
中 制造 见 余 ， 并 且 具 备 故障 转移 能 力 。 这 两 个 维度 的 高 可 用 性 可 以 通 
过 两 个 相关 的 度量 来 确定 : 平均 失效 时 间 (MTBF) 和 平均 恢复 时 间 
(MTTR) 。 一 些 组 织 会 非常 仔细 地 追踪 这 些 度量 值 。 


第 二 步 一 一 通过 多 余 快 速 恢复 一 一 很 不 拉 ， 这 里 是 最 应 该 注意 的 
地 方 ， 但 预防 措施 的 投资 回报 率 会 很 高 。 接 下 来 我 们 来 探讨 一 些 预防 
措施 。 


12.3.1 ”提升 平均 失效 时 间 (MTBF) 


其 实 只 要 尽职 尽责 地 做 好 一 些 应 做 的 事情 ， 就 可 以 避免 很 多 奉 
机 。 在 分 类 整理 宕 机 事件 并 追查 导致 宕 机 的 根源 时 ， 我 们 还 发 现 ， 很 
多 宕 机 本 来 是 有 一 些 方法 可 以 避免 的 。 我 们 发 现 大 部 分 宕 机 事件 都 可 
以 通过 全 面 的 常识 性 系统 管理 办 法 来 避免 。 以 下 是 从 我 们 的 白皮书 中 
摘录 的 指导 性 建议 ， 在 白皮书 中 有 我 们 详细 的 分 析 结 果 。 


测试 恢复 工具 和 流程 ， 包 括 从 备份 中 恢复 数据 。 
遵从 最 小 权限 原则 。 

保持 系统 干净 、 整 洁 。 

使 用 好 的 命名 和 组 织 约 定 来 避免 产生 混乱 ， 例 如 服务 器 是 用 于 开 
发 还 是 用 于 生产 环境 。 

着 慎 安 排 升 级 数据 库 服务 器 。 

在 升级 前 ， 使 用 诸如 Percona Toolkit 中 的 pt-upgrade 之 类 的 工具 仔 
细 检 查 系 统 。 

使 用 InnoDB 并 进行 适当 的 配置 ， 确 保 InnoDB 是 默认 存储 引擎 。 如 
果 存 储 引 党 被 禁止 ， 服 务 器 就 无 法 启动 。 

确认 基本 的 服务 器 配置 是 正确 的 。 

通过 skip_name_resolve 禁 I 上 DNS。 

除非 能 证 明 有 效 ， 否 则 禁用 查询 缓存。 

避免 使 用 复杂 的 特性 ， 例 如 复制 过 滤 和 和 触发 器 ， 除 非 确实 需要 。 
监控 重要 的 组 件 和 功能 ， 特 别 是 像 磁盘 空间 和 RAID 卷 状态 这 样 的 
关键 项 目 ， 但 也 要 避免 误 报 ， 只 有 当 确 实 发 生 问 题 时 才 发 送 告 


I 


n° 


Bi 记录 服务 器 的 状态 和 性 能 指数 ， 如 果 可 能 束 尽 量 久 地 保存 。 


定期 检查 复制 完整 性 。 

将 备 库 设 置 为 只 读 ， 不 要 让 复制 自动 启动 。 

定期 进行 查询 语句 审查 。 

归档 并 清理 不 需要 的 数据 。 

为 文件 系统 保留 一 些 空间 。 在 GNU/Linux 中 ， 可 以 使 用 -m 选 项 来 
为 文件 系统 本 身 保留 空间 。 还 可 以 在 LVM 卷 组 中 留 下 一 些 空闲 空 
间 。 或 者 ， 更 简单 的 方法 ， 仅 仅 创 建 一 个 巨大 的 空 文 件 ， 在 文件 
系统 快 满 时 ， 直 接 将 其 删除 。% 

。 养 成 习惯 ， 评 估 和 管理 系统 的 改变 、 状 态 以 及 性 能 信息 。 


我 们 发 现 对 系统 变更 管理 的 缺失 是 所 有 导致 宕 机 的 事件 中 最 普遍 
的 原因 。 典 型 的 错误 包括 粗心 的 升级 导致 升级 失败 并 遭遇 一 些 Bug， 
或 是 尚未 测试 束 将 Schema 或 查询 语句 的 更 改 直 接 运 行 到 线 上 ， 或 者 没 
有 为 一 些 失败 的 情况 制定 计划 ， 例 如 达到 了 磁盘 容量 限制 。 另 外 一 个 
导致 问题 的 主要 原因 是 缺少 严格 的 评估 ， 例 如 因为 疏 忽 没 有 确认 备份 
是 否 是 可 以 恢复 的 。 最 后 ， 可 能 没有 正确 地 监控 MySQL 的 相关 信息 。 
例如 缓存 命中 率 报警 并 不 能 说 明 出 现 问题 ， 并 且 可 能 产生 大 量 的 误 
报 ， 这 会 使 监控 系统 被 认 为 不 太 有 用 ， 于 是 一 些 人 融会 忽略 报警 。 有 
时 候 监 控 系统 失效 了 ， 甚 至 没 人 会 注意 到 ， 直 至 你 的 老板 质问 你 ,“ 为 
什么 Nagios 没 有 告诉 我 们 磁盘 已 经 满 了 ”。 


12.3.2 ”降低 平均 恢复 时 间 (MTTR) 


之 前 提 到 ， 可 以 通过 减少 恢复 时 间 来 获得 高 可 用 性 。 事 实 上 , 一 
些 人 走 得 更 远 ， 只 专注 于 减少 恢复 时 间 的 某 个 方面 : 通过 在 系统 中 建 
立 风 余 来 避免 系统 完全 失效 ， 并 避免 单 点 失效 问题 。 


在 降低 恢复 时 间 上 进行 投资 非常 重要 ， 一 个 能 够 提供 见 余 和 故障 
转移 能 力 的 系统 架构 ， 则 是 降低 恢复 时 间 的 关键 环节 。 但 实现 高 可 用 
性 不 单单 是 一 个 技术 问题 ， 还 有 许多 个 人 和 组 织 的 因素 。 组 织 和 个 人 
在 避免 宕 机 和 从 宕 机 事件 中 恢复 的 成 熟 度 和 能 力 层 次 各 不 相同 。 


团队 成 员 是 最 重要 的 高 可 用 性 资产 ， 所 以 为 恢复 制定 一 个 好 的 流 
程 非常 重要 。 拥 有 熟练 技能 、 应 变 能 力 、 训 练 有 素 的 雇员 ， 以 及 处 理 
紧急 事件 的 详细 文档 和 经 过 仔细 测试 的 流程 ， 对 从 宕 机 中 恢复 有 巨大 
的 作用 。 但 也 不 能 完全 依赖 工具 和 系统 ， 因 为 它们 并 不 能 理解 实际 情 
况 的 细微 差别 ， 有 时 候 它们 的 行为 在 一 般 情况 下 是 正确 的 ， 但 在 某 些 


景 下 却 会 是 个 灾难 ! 


对 宕 机 事件 进行 评估 有 助 于 提升 组 织 学 习 能 力 ， 可 以 帮助 避免 未 
来 发 生 相 似 的 错误 ， 但 是 不 要 对 “事后 反思 ”或 “事后 的 调查 分 析 ” 期 待 
太 高 。 后 见 之 明 被 严重 曲解 ， 并 且 一 味 想 找到 导致 问题 的 唯一 根源 ， 
这 可 能 会 影响 你 的 判断 力 沪 。 许 多 流行 的 方法 ， 例 如 “五 个 为 什么 ”， 
可 能 会 被 过 度 使 用 ， 导 致 一 些 人 将 他 们 的 精力 集中 在 找到 唯一 的 蔡 罪 
羊 。 很 难 去 回顾 我 们 解决 的 问题 当时 所 处 的 状况 ， 也 很 难 理解 真正 的 
原因 ， 因 为 原因 通 单 是 多 方面 的 。 因 此 ， 尽 管事 后 反思 可 能 是 有 用 
的 ， 但 也 应 该 对 结论 有 所 保留 。 即 使 是 我 们 给 出 的 建议 ， 也 是 基于 长 
期 研究 导致 宕 机 事件 的 原因 以 及 如 何 预防 它们 所 得 ， 并 且 只 是 我 们 的 
观点 而 已 。 


这 里 我 们 要 反复 提醒 : 所 有 的 宕 机 事件 都 是 由 多 方面 的 失效 联合 
在 一 起 导致 的 。 因 此 ， 可 以 通过 利用 合适 的 方法 确保 单 点 的 安全 来 避 
免 。 整 个 链条 必须 要 打 断 ， 而 不 仅仅 是 单个 环节 。 例 如 ， 那 些 向 我 们 
求助 恢复 数据 的 人 不 仅 遭 受 数据 丢失 〈 存 储 失 效 ，DBA 误 操作 等 ) ， 
同时 还 缺少 一 个 可 用 的 备份 。 


这 样 说 来 ， 当 开始 调查 并 尝试 阻止 失效 或 加 速 恢 复 时 ， 大 多 数 人 
和 组 织 不 应 太 过 于 内 妆 ， 而 是 要 专注 于 技术 上 的 一 些 措施 一 一 特别 是 
那些 很 酷 的 方法 ， 例 如 集群 系统 和 元 余 架构 。 这 些 是 有 用 的 ， 但 要 记 
住 这 些 系统 依然 会 失效 。 事 实 上 ， 在 本 书 第 二 版 中 提 到 的 MMM 复 制 
管理 ， 我 们 已 经 失去 了 兴趣 ， 因 为 它 被 证 明 可 能 导致 更 多 的 宕 机 时 
间 。 你 应 该 不 会 奇怪 一 组 Perl 脚 本 会 陷于 混乱 ， 但 即使 是 特别 昂贵 
精密 设计 的 系统 也 会 出 现 灾难 性 的 失效 一 一 是 的 ， 即 使 是 花费 了 大 量 
金钱 的 SAN 也 是 如 此 。 我 们 已 经 见 过 太 多 的 SAN 失 效 。 


12.4 ”避免 单 点 失效 


找到 并 消除 系统 中 的 可 能 失效 的 单 点 ， 并 结合 切换 到 备用 组 件 的 
机 制 ， 这 是 一 种 通过 减少 恢复 时 间 (MTTR) 来 改善 可 用 性 的 方法 。 
如 果 你 够 聪明 ， 有 时 候 甚至 能 将 实际 的 恢复 时 间 降 低 至 0， 但 总 的 来 说 
这 很 困难 。 《即使 一 些 非常 引 人 注 目的 技术 ， 例 如 昂贵 的 负载 均衡 
器 ， 在 发 现 问题 并 进行 反馈 时 也 会 导致 一 定 的 延迟 。 ) 


思考 并 梳理 整个 应 用 ， 尝 试 去 定位 任何 可 能 失效 的 单 点 。 是 一 个 
硬盘 驱动 器 ， 一 台 服 务 器 ， 一 台 交 换 或 路 由 器 ， 还 是 某 个 机 架 的 电 
源 ? 所 有 数据 都 在 一 个 数据 中 心 ， 或 者 多余 数据 中 心 是 由 同一 个 公司 
提供 的 吗 ? 系统 中 任何 不 见 余 的 部 分 都 是 一 个 可 能 失效 的 单 点 。 其 他 
比较 普遍 的 单 点 失效 依赖 于 一 些 服务 ， 例 如 DNS、 单 一 网 络 提供 商 
负 、 单 个 云 " 可 用 区 域 ”， 以 及 单个 电力 输送 网 ， 具 体 有 哪些 取决 于 你 
的 关注 点 。 


单 点 失效 并 不 总 是 能 够 消除 。 增 加 多余 或 许 也 无 法 做 到 ， 因 为 有 
些 限制 无 法 避 开 ， 例 如 地 理 位 置 ， 预 算 ， 或 者 时 间 限 制 等 。 试 着 去 理 


解 每 一 个 影响 可 用 性 的 部 分 ， 采 取 一 种 平衡 的 观点 来 看 待 风险 ， 并 首 
先 解决 其 中 影响 最 大 的 那个 。 一 些 人 试图 编写 一 个 软件 来 处 理 所 有 的 
硬件 失效 ， 但 软件 本 身 导 致 的 宕 机 时 间 可 能 比 它 节约 的 还 要 多 。 也 有 
人 想 建立 一 种 “ 永 不 沉没 ”的 系统 ， 包 括 各 种 匈 余 ， 但 他 们 忘记 了 数据 
中 心 可 能 掉 电 或 失去 连接 。 或 许 他 们 彻底 忘记 了 恶意 攻击 者 和 程序 错 
误 的 可 能 性 ， 这 些 情况 可 能 会 删除 或 损坏 数据 一 一 一 个 不 小 心 执行 的 
DROP TABLE 也 会 产生 宕 机 时 间 。 


可 以 采用 两 种 方法 来 为 系统 增加 元 余 : 增加 空余 容量 和 重复 组 
件 。 增 加 容量 余 量 通 常 很 简单 一 一 可 以 使 用 本 章 或 前 一 章 讨论 的 任何 
技术 。 一 个 提升 可 用 性 的 方法 是 创建 一 个 集群 或 服务 器 闻 ， 并 使 用 负 
载 均衡 解决 方案 。 如 果 一 台 服 务 器 失效 ， 其 他 服务 器 可 以 接管 它 的 负 
载 。 有 些 人 有 意识 地 不 使 用 组 件 的 全 部 能 力 ， 这 样 可 以 保留 一 些 “ 动 态 
余 量 ”来 处 理 因 为 负载 增加 或 组 件 失效 导致 的 性 能 问题 。 


出 于 很 多 方面 的 考虑 会 需要 宛 余 组 件 ， 并 在 主要 组 件 失 效 时 能 
一 个 备件 来 随时 替换 。 宛 余 组 件 可 以 是 空 朵 的 网 卡 、 路 由 器 或 者 硬盘 
驱动 器 一 一 任何 能 想到 的 可 能 失效 的 东西 。 完 全 风 余 MySQL 服 务 器 可 
能 有 点 困难 ， 因 为 一 个 服务 器 在 没有 数据 时 富 无 用 处 。 这 意味 着 你 必 
须 确保 备用 服务 器 能 够 获得 主 服务 器 上 的 数据 。 共 享 或 复制 存储 是 一 
个 比较 流行 的 办 法 ,但 这 真 的 是 一 个 高 可 用 性 染 构 吗 ? ERITAR 
中 看 看 。 


12.41 ”共享 存储 或 磁盘 复制 


共享 存储 能 够 为 数据 库 服务 器 和 存储 解 耦合 ， 通 常 使 用 的 是 
SAN。 使 用 共享 存储 时 ， 服 务 器 能 够 正常 挂 载 文件 系 统 并 进行 操作 。 


如 果 服 务 器 挂 了 ， 备 用 服务 器 可 以 挂 载 相同 的 文件 系统 ， 执 行 需要 的 
恢复 操作 ， 并 在 失效 服务 器 的 数据 上 启动 MySQL。 这 个 过 程 在 逻辑 上 
跟 修复 那 台 故 障 的 服务 器 没什么 两 样 ， 不 过 更 快速 ， 因 为 备用 服务 器 
已 经 启动 ， 随 时 可 以 运行 。 当 开始 故障 转移 时 ， 检 查 文件 系统 、 恢 复 
InnoDB 以 及 预 热 中 是 最 有 可 能 遇 到 延迟 的 地 方 ， 但 检测 失效 本 身 在 许 
多 设置 中 也 会 花费 很 长 时 间 。 


共享 存储 有 两 个 优点 : 可 以 避免 除 存储 外 的 其 他 任何 组 件 失效 所 
引起 的 数据 丢失 ， 并 为 非 存 储 组 件 建立 见 余 提供 可 能 。 因 此 它 有 助 于 
减少 系统 一 些 部 分 的 可 用 性 需求 ， 这 样 束 可 以 集中 精力 关注 一 小 部 分 
组 件 来 获得 高 可 用 性 。 不 过 ， 共 享 存储 本 身 仍 是 可 能 失效 的 单 点 。 如 
果 共 享 存储 失效 了 ， 那 整个 系统 也 失效 了 ， 尽 管 SAN 通 常设 计 良 好 ， 
但 也 可 能 失效 ， 有 了 时候 需 要 特别 关注。 就 算 SAN 本 身 拥有 克 余 也 会 失 
效 。 


主动 一 主动 访问 模式 的 共享 存储 怎么 样 ? 


在 一 个 SAN、NAS 或 者 集群 文件 系统 上 以 主动 一 主动 模式 运行 
多 个 实例 怎么 样 ? MySQL 不 能 这 么 做 。 因 为 MySQL 并 没有 被 设计 
成 和 其 他 MySQL 实 例 同步 对 数据 的 访问 ， 所 以 无 法 在 同一 份 数据 上 
开启 多 个 MySQL 实 例 。 (如 果 在 一 份 只 读 的 静态 数据 上 使 用 
MyISAM ， 技 术 上 是 可 行 的 ， 但 我 们 还 没有 见 过 任何 实际 的 应 
用 。) © 


MySQL 的 一 个 名 为 ScaleDB 的 存储 引擎 在 底层 提供 了 操作 共享 
存储 的 API， 但 我 们 还 没有 评估 过 ， 也 没有 见 过 任何 生产 环境 使 
用 。 在 写作 本 书 时 它 还 是 beta 版 。 


| | 


共享 存储 本 身 也 有 风险 ， 如 果 MySQL 骨 溃 等 故障 导致 数据 文件 损 
坏 ， 可 能 会 导致 备用 服务 器 无 法 恢复 。 我 们 强烈 建议 在 使 用 共享 存储 
策略 时 选择 ImnoDB 存 储 引 擎 或 其 他 稳定 的 ACID 存储 引擎 。 一 次 骨 涡 
几乎 肯定 会 损 十 MyISAM 表 ， 需 要 花费 很 长 时 间 来 修复 ， 并 且 会 丢失 
数据 。 我 们 也 强烈 建议 使 用 日 志 型 文件 系统 。 我 们 见 过 比较 严重 的 情 
况 是 ， 使 用 非 日 志 型 文件 系统 和 SAN (这 是 文件 系统 的 问题 ， 跟 SAN 
无 关 ) 导致 数据 损坏 无 法 恢复 。 


磁盘 复制 技术 是 另外 一 个 获得 跟 SAN 类 似 效果 的 方法 。MySQL 中 
最 普遍 使 用 的 磁盘 复制 技术 是 DRBD (http:/www.drbd.org) ， 并 结合 
Linux-HA 项 目 中 的 工具 使 用 (后 面 会 介绍 到 ) 。 


DRBD 是 一 个 以 Linux 内 核 模 块 方式 实现 的 块 级 别 同步 复制 技术 。 
它 通过 网 卡 将 主 服 务 器 的 每 个 块 复制 到 另外 一 个 服务 器 的 块 设 备 上 
(备用 设备 ) ， 并 在 主 设备 提交 块 之 前 记录 下 来 人。 由 于 在 备用 
DRBD 设 备 上 的 写 入 必须 要 在 主 设备 上 的 写 入 完成 之 前 ， 因 此 备用 设 
备 的 性 能 至 少 要 和 主 设备 一 样 ， 否 则 就 会 限制 主 设备 的 写 入 性 能 。 同 
样 ， 如 果 正 在 使 用 DRBD 磁 盘 复 制 技术 以 保证 在 主 设备 失效 时 有 一 个 
可 随时 替换 的 备用 设备 ， 备 用 服务 器 的 硬件 应 该 跟 主 服务 器 的 相 匹 
配 。 带 电 闻 写 缓存 的 RAID 控 制 器 对 DRBD 而 言 几乎 是 必需 的 ， 因 为 在 
没有 这 样 的 控制 器 时 性 能 可 能 会 很 差 。 


如 果 主 服务 器 失效 ， 可 以 把 备用 设备 提升 为 主 设 备 。 因 为 DRBD 
是 在 磁盘 块 层 进行 复制 ， 而 文件 系统 也 可 能 会 不 一 致 。 这 意味 着 最 好 
是 使 用 日 志 型 文件 系统 来 做 快速 恢复 。 一 旦 设备 恢复 完成 ，MySQL 还 


需要 运行 目 身 的 恢复 。 原 故障 服务 器 恢复 后 ， 会 与 新 的 主 设备 进行 同 
步 ， 并 假定 自身 角色 为 备用 设备 。 


从 如 何 实际 地 实现 故障 转移 的 角度 来 看 ，DRBD 和 SAN 很 相似 : 
有 一 个 热 备 机 器 ， 开 始 提供 服务 时 会 使 用 和 故障 机 器 相同 的 数据 。 最 
大 的 不 同 是 ，DRBD 是 复制 存储 一 一 不 是 共享 存储 一 一 所 以 当 使 用 
DRBD 时 ， 获 得 的 是 一 份 复制 的 数据 ， 而 SAN 则 是 使 用 与 故障 机 器 同 
一 物理 设备 上 的 相同 数据 副本 。 换 句 话 说 ， 人 磁盘 复制 技术 的 数据 是 元 
余 的 ， 所 以 存储 和 数据 本 身 都 不 会 存在 单 点 失效 问题 。 这 两 种 情况 
下 ， 当 启动 备用 机 器 时 ， MySQL 服 务 器 的 缓存 都 是 空 的 。 相 比 之 下 ， 
备 库 的 缓存 至 少 是 部 分 预 热 的 。 


DRBD 有 一 些 很 好 的 特性 和 功能 ， 可 以 防止 集群 软件 普遍 会 遇 到 
的 一 些 问 题 。 一 个 典型 的 例子 是 “ 脑 裂 综合 征 *"， 在 两 个 节点 同时 提升 
自己 为 主 服务 器 时 会 发 生 这 种 问题 。 可 以 通过 配置 DRBD 来 防止 这 种 
事件 发 生 。 但 是 DRBD 也 不 是 一 个 能 满足 所 有 需求 的 完美 解决 方案 。 
我 们 来 看 看 它 有 哪些 缺点 : 


。DRBD 的 故障 转移 无 法 做 到 秒 级 以 内 。 它 通常 至 少 需 要 几 秒 钟 时 
间 来 将 备用 设备 提升 成 主 设 备 ， 这 还 不 包括 任何 必要 的 文件 系统 
恢复 和 MySQL 恢 复 。 

它 很 昂贵 ， 因 为 必须 在 主动 一 被 动 模式 下 运行 。 热 备 服务 器 的 复 
制 设备 因为 处 于 被 动 模式 ， 无 法 用 于 其 他 任务 。 当 然 这 是 不 是 缺 
点 取决 于 看 问题 的 角度 。 如 果 你 希望 获得 真正 的 高 可 用 性 并 且 在 
发 生 故 障 时 不 能 容忍 服务 降级 ， 就 不 应 该 在 一 台 机 器 上 运行 两 台 
服务 器 的 负载 量 ， 因 为 如 果 这 么 做 了 ， 当 其 中 一 台 发 生 故 障 时 ， 
就 无 法 处 理 这 些 负载 了 。 可 以 用 这 些 备用 服务 器 做 一 些 其 他 用 
途 ， 例 如 用 作 备 库 ， 但 还 是 会 有 一 些 资源 浪费 。 


。 对 于 MyISAM 表 实际 上 用 处 不 大 ， 因 为 MyISAM 表 崩溃 后 需要 花 
费 很 长 时 间 来 检查 和 修复 。 对 任何 期 望 获得 高 可 用 性 的 系统 而 
言 ，MyISAM 都 不 是 一 个 好 选择 ; 请 使 用 InoDB 或 其 他 文 持 快 
速 、 安 全 恢复 的 存储 引擎 来 代替 MyISAM。 

DRBD 无 法 代替 备份 。 如 果 了 磁盘 由 于 蔓 意 的 破坏 、 误 操作 、Bug 或 
者 其 他 硬件 故障 导致 数据 损坏 ，DRBD 将 无 济 于 事 。 此 时 复制 的 
数据 只 是 被 损坏 数据 的 完美 副本 。 你 需要 使 用 备份 (MySQLi 
时 复制 ) 来 避免 这 些 问题 。 

对 写 操 作 而 言 增加 了 负担 。 具 体会 增加 多 少 负担 呢 ? 通常 可 以 使 
用 百分比 来 表示 ， 但 这 并 不 是 一 个 好 的 度量 方法 。 你 需要 理解 写 
入 时 增加 的 延迟 主要 由 网 络 往返 开销 和 远程 服务 器 存储 导致 ， 特 
别 是 对 于 小 的 写 入 而 言 延迟 会 更 大 。 尽 管 增 加 的 延迟 可 能 也 就 
0.3ms， 这 看 起 来 比 在 本 地 磁盘 上 LO 的 4~~10ms 的 延迟 要 小 很 多 ， 
但 却 是 正常 的 带 有 写 缓 存 的 RAID 控 制 器 的 延迟 的 3 一 4 倍 。 使 用 
DRBD 导 致 服务 器 变 慢 最 常见 的 原因 是 MySQL 使 用 InnoDB 并 采取 
了 完全 持久 化 模式 @， 这 会 导致 许多 小 的 写 入 和 fsync0O 调 用 ， 通 
过 DRBD 同 步 时 会 非常 慢 。3 


我 们 倾向 于 只 使 用 DRBD 复 制 存 放 二 进 制 日 志 的 设备 。 如 果 主 动 
节点 失效 ， 可 以 在 被 动 节点 上 开启 一 个 日 志 服 务 器 ， 然 后 对 失效 主 库 
的 所 有 备 库 应 用 这 些 二 进 制 日 志 。 接 下 来 可 以 选择 其 中 一 个 备 库 提升 
为 主 库 ， 以 代 蔡 失效 的 系统 。 


说 到 底 ， 共 享 存储 和 磁盘 复制 与 其 说 是 高 可 用 性 〈 低 宕 机 时 间 ) 
解决 方案 ,不 如 说 是 一 种 保证 数据 安全 的 方法 。 只 要 拥有 数据 ， 就 可 
以 从 故障 中 恢复 ， 并 且 比 无 法 恢复 的 情况 的 MTTR 更 低 。 (即使 是 很 
长 的 恢复 时 间 也 比 不 能 恢复 要 快 。) 但 是 相 比 于 备用 服务 器 局 动 并 一 直 


运行 的 架构 ， 大 多 数 共 享 存储 或 磁盘 复制 架构 会 增加 MTTR。 有 两 种 
启用 备用 设备 并 运行 的 方法 : 我 们 在 第 10 章 讨论 的 标准 的 MySQL 复 
制 ， 以 及 接 下 来 会 讨论 的 同步 复制 。 


12.4.2 MYSQL 同步 复制 


当 使 用 同步 复制 时 ， 主 库 上 的 事务 只 有 在 至 少 一 个 备 库 上 提交 后 
才能 认为 其 执行 完成 。 这 实现 了 两 个 目标 : SARS ASR AT A het 
的 事务 会 丢失 ， 并 且 至 少 有 一 个 备 库 拥有 实时 的 数据 副本 。 大 多 数 同 
步 复制 架构 运行 在 主动 -主动 模式 。 这 意味 着 每 个 服务 器 在 任何 时 候 都 
是 故障 转移 的 候选 者 ， 这 使 得 通过 风 余 获得 高 可 用 性 更 加 容易 。 


在 写作 本 书 时 ，MySQL 本 身 并 不 支持 同步 复制 40)， 但 有 两 个 基于 
MySQL 的 集群 解决 方案 支持 同步 复制 。 你 还 可 以 阅读 第 10 章 、 第 11 章 
和 第 13 章 讨论 的 其 他 产品 ， 例 如 Continuent Tungsten 以 及 Clustrix， 这 
些 都 相当 有 意思 。 


1. MySQL Cluster 


MySQL 中 的 同步 复制 首先 出 现在 MySQL Cluster ( NDB 
Cluster) 。 它 在 所 有 节点 上 进行 同步 的 主 - 主 复制 。 这 意味 着 可 以 在 任 
何 节点 上 写 入 ;这 些 节 点 拥有 等 同 的 读 写 能 力 。 每 一 行 都 是 见 余 存储 
的 ， 这 样 即使 丢失 了 一 个 节点 ， 也 不 会 丢失 数据 ， 并 且 集 群 仍然 能 提 
供 服 务 。 尽 管 MySQL Cluster 还 不 是 适用 于 所 有 应 用 的 完美 解决 方案 ， 
但 正如 我 们 在 前 一 章 提 到 的 ， 在 最 近 的 版 本 中 它 做 了 非常 快速 的 改 
进 ， 现 在 已 经 拥有 大 量 的 新 特性 和 功能 : 非 索引 数据 的 磁盘 存储 、 增 


加 数据 节点 能 够 在 线 扩展 、 使 用 ndbinfo 表 来 管理 集群 、 配 置 和 管理 集 
群 的 脚本 、 多 线程 操作 、 下 推 (push-down) 的 关联 操作 (现在 称 为 自 
适应 查询 本 地 化 ) 、 能 够 处 理 BLOB 列 和 很 多 列 的 表 、 集 中 式 的 用 户 
管理 ， 以 及 通过 像 memcached 协 议 一 样 的 NDB API 来 实现 NoSQL 访 
问 。 在 下 一 个 版 本 中 将 包含 最 终 一 致 运行 模式 ， 包 括 为 跨 数据 中 心 的 
主动 -主动 复制 提供 事务 冲突 检测 和 跨 WAN 解 决 方案 。 简 而 言 之 ， 
MySQL Cluster 是 一 项 引 人 注 目的 技术 。 


现在 至 少 有 两 个 为 简化 集群 部 署 和 管理 提供 附加 产品 的 供应 商 : 
Oracle 针 对 MySQL Cluster 的 服务 支持 包含 了 MySQL Cluster Manager 工 
Fl; Severalnines # 供 了 Cluster Control 工 具 
(http://www.severalnines.com) ， 该 工具 还 能 够 帮助 部 署 和 管理 复制 集 
群 。 


2. Percona XtraDB Cluster 


Percona XtraDB Cluster 是 一 个 相对 比较 新 的 技术 ， 基 于 已 有 的 
XtraDB (InnoDB) 存储 引擎 增加 了 同步 复制 和 集群 特性 ， 而 不 是 通过 
一 个 新 的 存储 引擎 或 外 部 服务 器 来 实现 。 它 是 基于 Galera (支持 在 集 
群 中 跨 节点 复制 写 操作 ) 实现 的 由， 这 是 一 个 在 集群 中 不 同 节点 复制 
写 操作 的 库 。 跟 MySQL Cluster 类 似 ，Percona XtraDB Cluster 提 供 同 步 
多 主 库 复 制 4)， 支 持 真正 的 任意 节点 写 入 能 力 ， 能 够 在 节点 失效 时 保 
证 数据 零 丢 失 (持久 性 ， ACID 中 的 D) ， 另 外 还 提供 高 可 用 性 ， 在 整 
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Galera 作 为 底层 技术 ， 使 用 一 种 被 称 为 写 入 集合 (write-set) 复制 
的 技术 。 写 入 集合 实际 上 被 作为 基于 行 的 二 进 制 日 志 事 件 进 行 编码 ， 


目的 是 在 集群 中 的 节点 间 传 输 并 进行 更 新 ， 但 是 这 不 要 求 二 进 制 日 志 
是 打开 的 。 


Percona XtraDB Cluster 的 速度 很 快 。 跨 节点 复制 实际 上 比 没 有 集 
群 还 要 快 ， 因 为 在 完全 持久 性 模式 下 ， 写 入 远程 RAM 比 写 入 本 地 磁盘 
要 快 。 如 果 你 愿意 ， 可 以 选择 通过 降低 每 个 节点 的 持久 性 来 获得 更 好 
的 性 能 ， 并 且 可 以 依赖 于 多 个 节点 上 的 数据 副本 来 获得 持久 性 。NDB 
也 是 基于 同样 的 原理 实现 的 。 集 群 在 整体 上 的 持久 性 并 没有 降低 ; 仅 
仅 是 降低 了 本 地 节点 的 持久 性 。 除 此 之 外 ， 还 支持 行 级 别 的 并 发 《多 
线程 ) 复制 ， 这 样 就 可 以 利用 多 个 CPU 核心 来 执行 写 入 集合 。 这 些 特 
性 结合 起 来 使 得 Percona XtraDB Cluster 非 常 适 合 云 计 算 环 境 ， 因 为 云 
计算 环境 中 的 CPU 和 磁盘 通常 比较 慢 。 


在 集群 中 通过 设置 autoincrement offset 和 
auto_increment_increment 来 实现 自 增 键 ， 以 使 节点 间 不 会 生成 冲突 的 
主键 值 。 锁 机 制 和 标准 InnoDB 完 全 相同 ， 使 用 的 是 乐观 并 发 控制 。 当 
事务 提交 时 ， 所 有 的 更 新 是 序列 化 的 ， 并 在 节点 间 传 输 ， 同 时 还 有 一 
个 检测 过 程 ， 以 保证 一 旦 发 生 更 新 冲突 ， 其 中 一 些 更 新 操作 需要 丢 
弃 。 这 样 如 果 许 多 节点 同时 修改 同样 的 数据 ， 可 能 产生 大 量 的 死 锁 和 
回 滚 。 


Percona XtraDB Cluster 只 要 集群 内 在 线 的 节点 数 不 少 于 “法 定 人 数 
(quorum) ”就 能 保证 服务 的 高 可 用 性 。 如 果 发 现 某 个 节点 不 属于 “法 
定 人 数 ” 中 的 一 员 ， 就 会 从 集群 中 将 其 踢 出 。 被 踢 出 的 节点 在 再 次 加 入 
集群 前 必须 重新 同步 。 因 此 集群 也 无 法 处 理 * 脑 裂 综合 征 >; 如 果 出 现 
脑 黎 则 集群 会 停止 服务 。 在 一 个 只 有 两 个 节点 的 集群 中 ， 如 果 其 中 一 
个 节点 失效 ， 剩 下 的 一 个 节点 达 不 到 “法 定 人 数 ”"， 集 群 将 停止 服务 ， 
所 以 实际 上 最 少 需 要 三 个 节点 才能 实现 高 可 用 的 集群 。 


Percona XtraDB Cluster 有 许多 优点 : 


提供 了 基于 InnoDB 的 透明 集群 ， 所 以 无 须 转换 到 另外 的 技术 ， 例 
如 NDB 这 样 完全 不 同 的 技术 需要 很 多 学 习 成 本 和 管理 。 

提供 了 真正 的 高 可 用 性 ， 所 有 节点 等 效 ， 并 在 任何 时 候 提 供 读 写 
服务 。 相 比较 而 言 ，MySQL 内 建 的 异步 复制 和 半 同 步 复制 必须 要 
有 一 个 主 库 ， 并 且 不 能 保证 数据 被 复制 到 备 库 ， 也 无 法 保证 备 库 
数据 是 最 新 的 并 能 够 随时 提升 为 主 库 。 

节点 失效 时 保证 数据 不 丢失 。 实 际 上 ， 由 于 所 有 的 节点 都 拥有 全 
部 数据 ， 因 此 可 以 丢失 任意 一 个 节点 而 不 会 丢失 数据 (即使 集群 
出 现 脑 裂 并 停止 工作 ) 。 这 和 NDB 不 同 ，NDB 通 过 节点 组 进行 分 
区 ， 当 在 一 个 节点 组 中 的 所 有 服务 器 失效 时 就 可 能 丢失 数据 。 

备 库 不 会 延迟 ， 因 为 在 事务 提交 前 ， 写 入 集合 已 经 在 集群 的 所 有 
节点 上 传播 并 被 确认 了 。 

因为 是 使 用 基于 行 的 日 志 事 件 在 备 库 上 进行 更 新 ， 所 以 执行 瑟 入 
集合 比 直接 执行 更 新 的 开销 要 小 很 多 ， 束 和 使 用 基于 行 的 复制 差 
不 多 。 当 结合 多 线程 应 用 的 写 入 集合 时 ， 可 以 使 其 比 MySQL 本 身 
的 复制 更 具备 可 扩展 性 。 


当然 我 们 也 需要 提 及 Percona XtraDB Cluster 的 一 些 缺 点 : 


它 很 新 ， 因 此 还 没有 足够 的 经 验 来 证 明 其 优点 和 缺点 ， 也 缺乏 合 
适 的 使 用 案例 。 

整个 集群 的 写 入 速度 由 最 差 的 节点 决定 。 因 此 所 有 的 节点 最 好 拥 
有 相同 的 硬件 配置 ， 如 果 一 个 节点 慢 下 来 (例如 ，RAID 卡 做 了 一 
次 battery-learn 循环 ) ， 所 有 的 节点 都 会 慢 下 来 。 如 果 一 个 节点 接 
收 写 入 操作 变 慢 的 可 能 性 为 Pp， 那么 有 3 个 节点 的 集群 变 慢 的 可 能 
性 为 3P。 


没有 NDB 那 样 节省 空间 ， 因 为 每 个 节点 都 需要 保存 全 部 数据 ， 而 
不 是 仅仅 一 部 分 。 但 另 一 方面 ， 它 基于 Percona XtraDB (InnoDB 
的 增强 版 本 ) ， 也 就 没有 NDB 关 于 磁盘 数据 限制 的 担忧 。 
当前 不 支持 一 些 在 异步 复制 中 可 以 做 的 操作 ， 例 如 在 备 库 上 离线 
修改 schema， 然 后 将 其 提升 为 主 库 ， 然 后 在 其 他 节点 上 重复 离线 
修改 操作 。 当 前 可 替代 的 选择 是 使 用 诸如 Percona Toolkit 中 的 在 线 
schema 修改 工具 。 不 过 滚动 式 schema 升 级 (rolling schema 
upgrade) 在 写作 本 书 时 也 即将 发 布 。 
当 向 集群 中 增加 一 个 新 节点 时 ， 需 要 复制 所 有 的 数据 ， 还 需要 跟 
上 不 断 进 行 的 写 入 操作 ， 所 以 一 个 拥有 大 量 写 入 的 大 型 集群 很 难 
进行 扩容 。 这 实际 上 限制 了 集群 的 数据 大 小 。 我 们 无 法 确定 具体 
的 数据 。 但 悲观 地 估计 可 能 低 至 100GB 或 更 小 ， 也 可 能 会 大 得 
多 。 这 一 点 需要 时 间 和 经 验 来 证 明 。 
复制 协议 在 写 入 时 对 网 络 波动 比较 敏感 ， 这 可 能 导致 节点 停止 并 
从 集群 中 中 出 。 所 以 我 们 推荐 使 用 高 性 能 网 络 ， 另 外 还 需要 很 好 
的 元 余 。 如 果 没 有 可 靠 的 网 络 ， 可 能 会 导致 需要 频繁 地 将 节点 加 
到 集群 中 。 这 需要 重新 同步 数据 。 在 写本 书 时 ， 有 一 个 几乎 接 
近 可 用 的 特性 ， 即 通过 增 量 状态 传输 来 避免 完全 复制 数据 集 ， 
此 未 来 这 并 不 是 一 个 问题 。 还 可 以 配置 Galera 以 容忍 更 大 的 网 络 
延迟 〈 以 延迟 故障 检测 为 代价 ) ， 另 外 更 加 可 靠 的 算法 也 计划 在 
未 来 的 版 本 中 实现 。 
如 果 没 有 仔细 关注 ， 集 群 可 能 会 增长 得 太 大 ， 以 至 于 无 法 重启 失 
效 节点 ， 就 像 在 一 个 合理 的 时 间 沁 围 内 ， 如 果 在 日 党 工作 中 没有 
定期 做 恢复 演练 ， 备 份 也 会 变 得 太 过 庞大 而 无 法 用 于 恢复 。 我 们 
需要 更 多 的 实践 经 验 来 了 解 它 事实 上 是 如 何 工 作 的 。 
由 于 在 事务 提交 时 需要 进行 跨 节点 通信 ， 写 入 会 更 慢 ， 随 着 集群 
中 增加 的 节点 越 来 越 多 ， 死 锁 和 回 深 也 会 更 加 频繁 。 (参阅 前 一 


章 了 解 为 什么 会 发 生 这 种 情况 。) 


Percona XtraDB Cluster 和 Galera 都 处 于 其 生命 周期 的 早期 ， 正 在 
被 快速 地 修改 和 改进 。 在 写作 本 书 时 ， 正 在 进行 或 即将 进行 的 改进 包 
括 群 体 行为 、 安 全 性 、 同 步 性 、 内 存 管理 、 状 态 转 移 等 。 未 来 还 可 以 
为 离线 节点 执行 诸如 滚动 式 schema 变 更 的 操作 。 


12.4.3 ”基于 复制 的 元 余 


复制 管理 器 是 使 用 标准 MySQL 复 制 来 创建 元 余 的 工具 (3。 尽 管 可 
以 通过 复制 来 改善 可 用 性 ， 但 也 有 一 些 “ 玻 璃 天 人 花 板 ” 会 阻止 MySQL 当 
前 版 本 的 异步 复制 和 半 同 步 复 制 获 得 和 真正 的 同步 复制 相同 的 结果 。 
复制 无 法 保证 实时 的 故障 转移 和 数据 零 丢 失 ， 也 无 法 将 所 有 节点 等 同 
对 待 。 


复制 管理 器 通常 监控 和 管理 三 件 事 : 应 用 和 MySQL 间 的 通信 、 
MySQL 服 务 器 的 健康 度 ， 以 及 MySQL 服 务 器 间 的 复制 关系 。 它 们 婚 
可 以 修改 负载 均衡 的 配置 ， 也 可 以 在 必要 的 时 候 转 移 虚 拟 IP 地 址 以 使 
应 用 连接 到 合适 的 服务 器 上 ， 还 能 够 在 一 个 伪 集 群 中 操纵 复制 以 选择 
一 个 服务 器 作为 写 入 节点 。 大 体 上 操作 并 不 复杂 : 只 需要 确定 写 入 不 
会 发 送 到 一 个 还 没有 准备 好 提供 写 服 务 的 服务 器 上 ， 并 保证 当 需 要 提 
升 一 台 备 库 为 主 库 时 记录 下 正确 的 复制 坐标 。 


这 听 起 来 在 理论 上 是 可 行 的， 但 我 们 的 经 验 表 明 实 际 上 并 不 总 是 
能 有 效 工 作 。 事 实 上 这 非常 粳 糕 ， 有 些 时 候 最 好 有 一 些 轻 量 级 的 工具 
集 来 帮助 从 常见 的 故障 中 恢复 并 以 很 少 的 开销 获得 较 高 的 可 用 性 。 不 
素 的 是 ， 在 写作 本 书 时 我 们 还 没有 了 听 说 任何 一 个 好 的 工具 集 可 以 可 靠 


地 完成 这 一 点 。 稍 后 我 们 会 介绍 两 个 复制 管理 器 (1 多， 其 中 一 个 很 新 ， 
而 另外 一 个 则 有 很 多 问题 。 


我 们 发 现 很 多 人 试图 去 写 目 己 的 复制 管理 器 。 他 们 单单 会 陷入 很 
多 人 已 经 遭遇 过 的 陷阱 。 自 己 去 写 一 个 复制 管理 器 并 不 是 好 主意 。 异 
步 组 件 有 大 量 的 故障 形式 ， 很 多 你 从 未 杀身 经 历 过 ， 其 中 一 些 甚 至 无 
法 理解 ， 并 且 程 序 也 无 法 适当 处 理 ， 因 此 从 这 些 异 步 组 件 中 得 到 正确 
的 行为 相当 困难 ， 并 且 可 能 遭遇 数据 丢失 的 危险 。 事 实 上 ， 机 器 刚 开 
始 出 现 问题 时 ， 由 一 个 经 验 丰 富 的 人 来 解决 是 很 快 的 ， 但 如 果 其 他 人 
做 了 一 些 错 误 的 修复 操作 则 可 能 导致 问题 更 严重 。 


我 们 要 提 到 的 第 一 个 复制 管理 器 是 MMM (http:/mysql- 
mmm.org) ， 本 书 的 作者 对 于 该 工具 集 是 否 适 用 于 生产 环境 部 署 的 意 
见 并 不 一 致 《尽管 该 工具 的 原作 者 也 承认 它 并 不 可 靠 ) 。 我 们 中 有 些 
人 认为 它 在 一 些 人 工 一 故障 转移 模式 下 的 场景 中 比较 有 用 ， 而 有 些 人 
甚至 从 不 使 用 这 个 工具 。 我 们 的 许多 客户 在 自动 一 故障 转移 模式 下 使 
用 该 工具 时 确实 遇 到 了 许多 严重 的 问题 。 它 会 导致 健康 的 服务 器 离 
线 ， 也 可 能 将 写 入 发 适 到 错误 的 地 点 ， 并 将 备 库 移动 到 错误 的 坐标 。 
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另外 一 个 比较 新 一 点 的 工具 是 Yoshinori MatsunobupJMHA LAS 
(http://code.google.com/p/mysql-master-ha/) 。 它 和 MMM 一 样 是 一 组 
脚本 ， 使 用 相同 的 通用 技术 来 建立 一 个 伪 集 群 ， 但 它 不 是 一 个 完全 的 
替换 者 ， 它 不 会 去 做 太 多 的 事情 ， 并 且 依 赖 于 Pacemaker 来 转移 虚拟 IP 
地 址 。 一 个 主要 的 不 同 是 ，MHA 有 一 个 很 好 的 测试 集 ， 可 以 防止 一 些 
MMM 遇 到 过 的 问题 。 除 此 之 外 ， 我 们 对 该 工具 集 还 没有 更 多 的 认 
识 ， 我 们 只 和 Yoshinori 讨论 过 ， 但 还 没有 真正 使 用 过 。 


基于 复制 的 见 余 最 终 来 说 好 坏 参 半 。 只 有 在 可 用 性 的 重要 性 远 比 
一 致 性 或 数据 零 丢 失 保 证 更 重要 时 才 推 荐 使 用 。 例 如 ， 一 些 人 并 不 会 
真 的 从 他 们 的 网 站 功能 中 获 利 ， 而 是 从 它 的 可 用 性 中 赚钱 。 谁 会 在 乎 
是 否 出 现 了 故障 导致 一 张 照片 丢失 了 几 条 评论 或 其 他 什么 东西 呢 ?” 只 
要 广告 收益 继续 滚滚 而 来 ， 可 能 并 不 值得 伦 更 多 成 本 去 实现 真正 的 高 
可 用 性 。 但 还 是 可 以 通过 复制 来 建立 “ 尽 可 能 的 ”高 可 用 性 ， 当 遇 到 一 
些 很 难处 理 的 严重 宕 机 时 可 能 会 有 所 帮助 。 这 是 一 个 大 赌注 ， 并 且 可 
能 对 大 多 数 人 而 言 太 过 于 冒险 ， 除 非 是 那些 老成 〈 或 者 专业 ) 的 用 
Po 


问题 是 许多 用 户 不 知道 如 何 去 证 明 自 己 有 资格 并 评估 复制 “ 轮 盘 
赌 ?是 否 适 合 他 们 。 这 有 两 个 方面 的 原因 。 第 一 ， 他 们 并 没有 看 到 *“ 玻 
璃 天 伦 板 ”， 错 误 地 认为 一 组 虚拟 耳 地 址 、 复 制 以 及 管理 脚本 能 够 实现 
真正 的 高 可 用 性 。 第 二 ， 他 们 低估 了 技术 的 复杂 度 ， 因 此 也 低估 了 严 
重 故 障 发 生 后 从 中 恢复 的 难度 。 一 些 人 认为 他 们 能 够 使 用 基于 复制 的 
多余 技术 ， 但 随后 他 们 可 能 会 更 希望 选择 一 个 有 更 强 保障 的 简单 系 


统 。 


其 他 一 些 类 型 的 复制 ， 例 如 DRBD 或 者 SAN， 也 有 它们 的 缺点 
请 不 要 认为 我 们 将 这 些 技术 说 得 无 所 不 能 而 把 MySQL 自 身 的 复制 
凤 得 一 团 糟 ， 那 不 是 我 们 的 本 意 。 你 可 以 为 DRBD 写 出 低 质量 的 故障 
转移 脚本 ， 这 很 简单 ， 就 像 为 MYSQL 复制 编写 脚本 一 样 。 主 要 的 区 别 
是 MySQL 复 制 非常 复杂 ， 有 很 多 非常 细小 的 差别 ， 并 且 不 会 阻止 你 干 
坏事 。 


12.5 ”故障 转移 和 故障 恢复 


隐 余 是 很 好 的 技术 ， 但 实际 上 只 有 在 遇 到 故障 需要 恢复 时 才 会 用 
到 。 (见鬼 ， 这 可 以 用 备份 来 实现 ) 。 见 余 一 点 儿 也 不 会 增加 可 用 性 
或 减少 宕 机 。 在 故障 转移 的 过 程 中 ， 高 可 用 性 是 建立 在 见 余 的 基础 
上 。 当 有 一 个 组 件 失效 ， 但 存在 多余 时 ， 可 以 停止 使 用 发 生 故 障 的 组 
件 ， 而 使 用 见 余 备 件 。 宛 余 和 故障 转移 结合 可 以 帮助 更 快 地 恢复 ， 如 
你 所 知 ，MTTR 的 减少 将 降低 宕 机 时 间 并 改善 可 用 性 。 


在 继续 这 个 话题 之 前 ， 我 们 先 来 定义 一 些 术 语 。 我 们 统一 使 用 “ 故 
障 转移 (failover) ”， 有 些 人 使 用 “ 回 退 ” (fallback) 表达 同一 意思 。 
有 时 候 也 有 人 说 “切换 (switchover) ”， 以 表明 一 次 计划 中 的 切换 而 不 
是 故障 后 的 应 对 措施 。 我 们 也 会 使 用 “故障 恢复 ”来 表示 故障 转移 的 反 
面 。 如 果 系 统 拥有 故障 恢复 能 力 ， 故 障 转移 就 是 一 个 双向 过 程 : 当 服 
务 器 A 失效 ， 服 务 器 B 人 代替 它 ， 在 修复 服务 器 A 后 可 以 再 替换 回来 。 


故障 转移 比 仅 仅 从 故障 中 恢复 更 好 。 也 可 以 针对 一 些 情况 制订 故 
障 转移 计划 ， 例 如 升级 、schema 变 更 、 应 用 修改 ,或 者 定期 维护 ， 当 
发 生 故 障 时 可 以 根据 计划 进行 故障 转移 来 减少 宕 机 时 间 (改善 可 用 
性 ) 。 


你 需要 确定 故障 转移 到 底 需 要 多 快 ， 也 要 知道 在 一 次 故障 转移 后 
替换 一 个 失效 组 件 应 该 多 快 。 在 你 恢复 系统 耗 尽 的 备件 容量 之 前 ， 会 
出 现 见 余 不 足 ， 并 面临 额外 风险 。 因 此 ， 拥 有 一 个 备件 并 不 能 消除 即 
时 替换 失效 组 件 的 需求 。 构 建 一 个 新 的 备用 服务 器 ， 安 法 操作 系统 ， 
并 复制 数据 的 最 新 副本 ， 可 以 多 快 呢 ?有 足够 的 备用 机 器 吗 ? 你 可 能 
需要 不 止 一 台 以 上 。 


故障 转移 的 缘由 各 不 相同 。 我 们 已 经 讨论 了 其 中 的 一 些 ， 因 为 负 
载 均 衡 和 故障 转移 在 很 多 方面 很 相似 ， 它 们 之 间 的 分 界线 比较 模糊 。 


总 的 来 说 ， 我 们 认为 一 个 完全 的 故障 转移 解决 方案 至 少 能 够 监控 并 自 
动 替 换 组 件 。 它 对 应 用 应 该 是 透明 的 。 负 载 均 衡 不 需要 提供 这 些 功 
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在 UNIX 领域 ， 故 障 转 移 常常 使 用 High Availability Linux 项 目 
(http://linux-ha.org) 提供 的 工具 来 完成 ， 该 项 目 可 在 许多 类 UNIX 系 
统 上 运行 ， 而 不 仅仅 是 Linux。Linux-HA 栈 在 最 近 几 年 明显 多 了 很 多 
新 特性 。 现 在 大 多 数 人 认为 Pacemaker 是 栈 中 的 一 个 主要 组 件 。 
Pacemaker 替 代 了 老 的 心跳 工具 。 还 有 其 他 一 些 工具 实现 了 IP 托 管 和 负 
载 均 衡 功 能 。 可 以 将 它们 跟 DRBD 和 /或 者 LVS 结 合 起 来 使 用 。 


故障 转移 最 重要 的 部 分 就 是 故障 恢复 。 如 果 服 务 器 间 不 能 自如 切 
换 ， 故 障 转移 就 是 一 个 死胡同 ， 只 能 是 延缓 宕 机 时 间 而 已 。 这 也 是 我 
们 倾向 于 对 称 复制 布局 ， 例 如 双 主 配置 ， 而 不 会 选择 使 用 三 台 或 更 多 
的 联合 主 库 (co-master) 来 进行 环形 复制 的 原因 。 如 果 配 置 是 对 等 
的 ， 故 障 转移 和 故障 恢复 就 是 在 相反 方向 上 的 相同 操作 。 (值得 一 提 
的 是 DRBD 具 有 内 建 的 故障 恢复 功能 。 


在 一 些 应 用 中 ， 故 障 转 移 和 故障 恢复 需要 尽量 快速 并 具备 原子 
性 。 即 便 这 不 是 决定 性 的 ， 不 依靠 那些 不 受 你 控制 的 东西 也 依然 是 个 
好 主意 ， 例 如 DNS 变更 或 者 应 用 程序 配置 文件 。 一 些 问 题 直到 系统 变 
得 更 加 庞大 时 才 会 显现 出 来 ， 例 如 当 应 用 程序 强制 重启 以 及 原子 性 需 
求 出 现时 。 


由 于 负载 均衡 和 故障 转移 两 者 联系 较 紧 密 ， 有 些 硬 件 和 软件 是 同 
时 为 这 两 个 目的 设计 的 ， 因 此 我 们 建议 所 选择 的 任何 负载 均衡 技术 应 
该 都 提供 故障 转移 功能 。 这 也 是 我 们 建议 避免 使 用 DNS 和 修改 代码 来 


做 负载 均衡 的 真实 原因 。 如 果 为 负载 均衡 采用 了 这 些 策略 ， 就 需要 做 
一 些 额外 的 工作 : 当 需 要 高 可 用 性 时 ， 不 得 不 重 写 受 影响 的 代码 。 


以 下 小 节 讨论 了 一 些 比较 普遍 的 故障 转移 技术 。 可 以 手动 执行 或 
使 用 工具 来 实现 。 


12.5.1 ”提升 备 库 或 切换 角色 


提升 一 台 备 库 为 主 库 ， 或 者 在 一 个 主 一 主 复制 结构 中 调换 主动 和 
被 动 角色 ， 这 些 都 是 许多 MySQL 故 障 转 移 策略 很 重要 的 一 部 分 。 具 体 
细节 参见 第 10 章 。 正 如 本 章 之 前 提 到 的 ， 我 们 不 能 认定 自动 化 工具 总 
能 在 所 有 的 情况 下 做 正确 的 事情 一 一 或 者 至 少 以 我 们 的 名 誉 担保 没有 
这 样 的 工具 。 


你 不 应 该 假定 在 发 生 故 障 时 能 够 立刻 切换 到 被 动 备 库 ， 这 要 看 具 
体 的 工作 负载 。 备 库 会 重 放 主 库 的 写 入 ， 但 如 果 不 用 来 提供 读 操作 ， 
就 无 法 进行 预 热 来 为 生产 环境 负载 提供 服务 。 如 果 希 望 有 一 个 随时 能 
承担 读 负载 的 备 库 ， 就 要 不 断 地 “训练 *" 它 ， 既 可 以 将 其 用 于 分 担 工作 
负载 ， 也 可 以 将 生产 环境 的 读 查 询 镜 像 到 备 库 上 上。 我们 有 时 候 通 过 监 
听 TCP 流 量 ， 截 取出 其 中 的 SELECT 查 询 ， 然 后 在 备 库 上 重 放 来 实现 这 
个 目的 。Percona Toolkit 中 有 一 些 工 具 可 以 做 到 这 一 点 。 


12.5.2 ”虚拟 IP 地 址 或 IP 接 管 


可 以 为 需要 提供 特定 服务 的 MySQL 实 例 指 定 一 个 逻辑 IP 地 址 。 当 
MySQL 实 例 失效 时 ， 可 以 将 IP 地 址 转移 到 另 一 台 MySQL 服 务 器 上 。 这 


和 我 们 在 前 一 章 提 到 的 思想 本 质 上 是 相同 的 ， 唯 一 的 不 同 是 现在 是 用 
于 故障 转移 ， 而 不 是 负载 均衡 。 


这 种 方法 的 好 处 是 对 应 用 透明 。 它 会 中 断 已 有 的 连接 ， 但 不 要 求 


修改 配置 。 有 时 候 还 可 以 原子 地 转移 IP 地 址 ， 保 证 所 有 的 应 用 在 同一 
时 间 看 到 这 一 变更 。 当 服务 器 在 可 用 和 不 可 用 状态 间 *“ 播 摆 ” 时 ， 这 一 
MAREE. 


以 下 是 它 的 一 些 不 足 之 处 : 


需要 把 所 有 的 IP 地 址 定义 在 同一 网 段 ， 或 者 使 用 网 络 桥接 。 

变 IP 地 址 需要 系统 root 权 限 。 
有 时 候 还 需要 更 新 ARP 缓 存 。 有 些 网 络 设备 可 能 会 把 ARP 信 息 保 
存 太 久 ， 以 致 无 法 即时 将 一 个 卫 地 址 切换 到 另 一 个 MAC 地 址 上 。 
我 们 看 到 过 很 多 网 络 设备 或 其 他 组 件 不 配合 切换 的 例子 ， 结 果 系 
统 的 许多 部 分 可 能 无 法 确定 IP 地 址 到 底 在 哪里 。 
需要 确定 网 络 硬件 支持 快速 IP 接 管 。 有 些 硬件 需要 克隆 MAC 地 址 
后 才能 工作 。 
有 些 服务 器 即使 完全 未 失 功 能 也 会 保持 持 有 了 PP 地 址 ， 所 以 可 能 需 
要 从 物理 上 关闭 或 断 开 网 络 连接 。 这 就 是 为 人 所 熟知 的 “ 击 中 其 他 
节点 的 头 部 ” (shoot the other node in the head， 简 称 STONITH) o 
它 还 有 一 个 更 加 微妙 并 且 比 较 官方 的 名 字 : 击剑 (fencing) o 


浮动 IP 地 址 和 1IP 接 管 能 够 很 好 地 应 付 彼此 临近 (也 就 是 在 同一 子 


网 内 ) 的 机 器 之 间 的 故障 转移 。 但 是 最 后 需要 提醒 的 是 ， 这 种 策略 并 


不 总 


是 万 无 一 失 , 还 取决 于 网 络 硬件 等 因素 。 


等 待 更 新 扩散 


经 常 有 这 种 情况 ， 在 某 一 层 定义 了 一 个 见 余 后 ， 需 要 等 待 低 层 
执行 一 些 改变 。 在 本 章 前 面 的 篇 幅 里 ， 我 们 指出 通过 DNS 修改 服务 
器 是 一 个 很 脆弱 的 解决 方案 ， 因 为 DNS 的 更 新 扩散 速度 很 慢 ， 改 变 
IP 地 址 可 给 予 你 更 多 的 控制 ， 但 在 一 个 LAN 中 的 IP 地 址 同样 依赖 于 
更 低层 一 一 ARP 一 一 来 扩散 更 新 。 


12.5.3 ”中 间 件 解决 方案 


可 以 使 用 代理 、 端 口 转发 、 网 络 地 址 转换 (NAT) 或 者 硬件 负载 
均衡 来 实现 故障 转移 和 故障 恢复 。 这 些 都 是 很 好 的 解决 方案 ， 不 像 其 
他 方法 可 能 会 引入 一 些 不 确定 性 (所 有 系统 组 件 认 同 哪 一 个 是 主 库 
IS? 它 能 够 及 时 并 原子 地 更 改 吗 ? ) ， 它 们 是 控制 应 用 和 服务 器 间 连 
接 的 中 枢 。 但 是 ， 它 们 自身 也 引入 了 单 点 失效 ， 需 要 准备 多余 来 避免 


这 个 问题 。 


使 用 这 样 的 解决 方案 ， 你 可 以 将 一 个 远程 数据 中 心 设置 成 看 起 来 
好 像 和 应 用 在 同一 个 网 络 里 。 这 样 就 可 以 使 用 诸如 浮动 IP 地 址 这 样 的 
技术 让 应 用 和 一 个 完全 不 同 的 数据 中 心 开始 通信 。 你 可 以 配置 每 个 数 
据 中 心 的 每 全 应 用 服务 器 ， 通 过 它 自己 的 中 间 件 连接 ， 将 流量 路 由 到 
活跃 数据 中 心 的 机 器 上 。 图 12-1 描 述 了 这 种 配置 。 
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图 12-1: 使 用 中 间 件 来 在 各 数据 中 心间 路 由 MySQL 连 接 


如 果 活 路 数据 中 心安 洲 的 MySQL 彻 底 衣 并 了 ， 中 间 件 可 以 路 由 流 
量 到 另外 一 个 数据 中 心 的 服务 器 地 中 ， 应 用 无 须知 道 这 个 变化 。 


这 种 配置 方法 的 主要 缺点 是 在 一 个 数据 中 心 的 Apache 服 务 器 和 另 
外 一 个 数据 中 心 的 MySQL 服 务 器 之 间 的 延迟 比较 大 。 为 了 缓和 这 个 问 
题 ， 可 以 把 Web 服务 器 设置 为 重 定 向 模式 。 这 样 通信 都 会 被 重 定向 到 
放置 活跃 MySQL 服 务 器 的 数据 中 心 。 还 可 以 使 用 HTTP 代 理 来 实现 这 
一 目标 。 


图 12-1 显 示 了 如 何 使 用 代理 来 连接 MySQL 服 务 器 ， 也 可 以 将 这 个 
方法 和 许多 别 的 中 间 件 架构 结合 在 一 起 ， 例 如 LVS 和 硬件 负载 均衡 
Zito 


12.5.4 ”在 应 用 中 处 理 故 障 转 移 


有 时 候 让 应 用 来 处 理 故 障 转移 会 更 简单 或 者 更 加 灵活 。 例 如 ， 如 
果 应 用 遇 到 一 个 错误 ， 这 个 错误 外 部 观察 者 正常 情况 下 是 无 法 察觉 


的 ， 例 如 关于 数据 库 损 坏 的 错误 日 志 信息 ， 那 么 应 用 可 以 自己 来 处 理 
故障 转移 过 程 。 


虽然 把 故障 转移 处 理 过 程 整合 到 应 用 中 看 起 来 比较 吸引 人 ， 但 可 
能 没有 想象 中 那么 有 效 。 大 多 数 应 用 有 许多 组 件 ， 例 如 cron 任 务 、 配 
置 文件 ， 以 及 用 不 同 语言 编写 的 脚本 。 将 故障 转移 整合 到 应 用 中 可 能 
导致 应 用 变 得 太 过 笨拙 ， 尤 其 是 当 应 用 增 大 并 变 得 更 加 复杂 时 。 


但 是 将 监控 构建 到 应 用 中 是 一 个 好 主意 ， 当 需要 时 ， 能 够 立刻 开 
始 故 障 转 移 过 程 。 应 用 应 该 也 能 够 管理 用 户 体验 ， 例 如 提供 降级 功 
能 ， 并 显示 给 用 户 合适 的 信息 。 


12.6 BE 


可 以 通过 减少 宕 机 来 获得 高 可 用 性 ， 这 需要 从 以 下 两 个 方面 来 思 
考 : 增加 两 次 故障 之 间 的 正常 运行 时 间 (MTBF) ， 或 者 减少 从 故障 
中 恢复 的 时 间 (MTTR) 。 


要 增加 两 次 故障 之 间 的 正常 运行 时 间 ， 就 要 尝试 去 防止 故障 发 
生 。 莫 剧 的 是 ， 在 预防 故障 发 生 时 ， 它 仍然 会 觉得 你 做 的 不 够 多 ， 所 
以 预防 故障 的 努力 经 常会 被 忽视 掉 。 我 们 已 经 着 重 提 到 了 如 何在 
MySQL 系统 中 预防 宕 机 ; 具体 的 细节 可 以 参阅 我 们 的 白皮书 ， 从 
http:/www.percona.com 上 可 以 获得 。 试 着 从 宕 机 中 获得 经 验 教训 ， 但 
也 要 谨防 在 故障 根源 分 析 和 事后 检验 时 集中 在 某 一 点 上 而 忽略 其 他 因 
Fo 


缩短 恢复 时 间 可 能 更 复杂 并 且 代 价 很 高 。 从 简单 和 容易 的 方面 来 
说 ， 可 以 通过 监控 来 更 快 地 发 现 问 题 ， 并 记录 大 量 的 度量 值 以 帮助 诊 
断 闻 题 。 作 为 回报 ， 有 时 候 可 以 在 发 生 宕 机 前 就 发 现 问题 。 监 控 并 有 
选择 地 报警 以 避免 无 用 的 信息 ， 但 也 要 及 时 记录 状态 和 性 能 度量 值 。 


另外 一 个 减少 恢复 时 间 的 策略 是 为 系统 建立 见 余 ， 并 使 系统 具备 
故障 转移 能 力 ， 这 样 当 故障 发 生 时 ， 可 以 在 见 余 组 件 间 进 行 切换 。 不 
幸 的 是 ， 宛 余 会 让 系统 变 得 相当 复杂 。 现 在 应 用 不 再 是 集中 化 的 ， 而 
是 分 布 式 的 ， 这 意味 着 协调 、 同 步 、CAP 定 理 、 和 拜占庭 将 军 问题 ， 以 
及 所 有 其 他 各 种 杂乱 的 东西 。 这 也 是 像 NDB Cluster 这 样 的 系统 很 难 创 
建 并 且 很 难 提供 足够 的 通用 性 来 为 所 有 的 工作 负载 提供 服务 的 原因 。 
但 这 种 情况 正在 改善 ， 也 许 到 本 书 第 四 版 的 时 候 我 们 就 可 以 称赞 一 个 
或 多 个 集群 数据 库 了 。 


本 章 和 前 面 两 章 提 及 的 话题 常常 被 放 在 一 起 讨论 : 复制 、 可 扩展 
性 ， 以 及 高 可 用 性 。 我 们 已 经 尽量 将 它们 独立 开 来 ， 因 为 这 有 助 于 理 
清 这 些 话题 的 不 同 之 处 。 那 么 这 三 章 有 哪些 关联 之 处 呢 ? 


在 其 应 用 增长 时 ， 人 们 一 般 和 希望 从 他 们 的 数据 库 中 知道 三 件 事 : 


。 他 们 希望 能 够 增加 容量 来 处 理 新 增 的 负载 而 不 会 损失 性 能 。 

。 他 们 希望 保证 不 丢失 已 提交 的 事务 。 

。 他 们 希望 应 用 能 一 直 在 线 并 处 理事 务 ， 这 样 他 们 就 能 够 一 直 赚 
钱 。 


为 了 达到 这 些 目 的， 人 们 常常 首先 增加 多 余 。 结 合 故障 转移 机 
制 ， 通 过 最 小 化 MTTR 来 提供 高 可 用 性 。 这 些 匈 余 还 提供 了 空 闪 容 
量 ， 可 以 为 更 多 的 负载 提供 服务 。 


当然 ， 除 了 必要 的 资源 外 ， 还 必须 要 有 一 份 数 据 副 本 。 这 有 助 于 
在 损失 服务 器 时 避免 丢失 数据 ， 从 而 增强 持久 性 。 生 成 数据 副本 的 唯 
一 办 法 是 通过 有 某 种 方法 进行 复制 。 不 季 的 是 ， 数 据 副本 可 能 会 引入 不 
一 致 。 处 理 这 个 问题 需要 在 节点 间 协 调和 通信 。 这 给 系统 融 来 了 额外 
的 负担 ; 这 也 是 系统 或 多 或 少 存 在 扩展 性 问题 的 原因 。 


数据 副本 还 需要 更 多 的 资源 (例如 更 多 的 硬盘 驱动 器 ， 更 多 的 
RAM) ， 这 会 增加 开销 。 有 一 个 办 法 可 以 减少 资源 消耗 和 维护 一 致 性 
的 开销 ， 就 是 为 数据 分 区 (DA) 并 将 每 个 分 片 分 发 到 特定 的 系统 
中 。 这 可 以 减少 需要 复制 的 重复 数据 的 次 数 ， 并 从 资源 风 余 中 分 离 数 
据 风 余 。 


所 以 ， 尽 管 一 件 事 总 会 导致 另外 一 件 事 ， 但 我 们 是 在 讨论 一 组 相 
天 的 观点 和 实践 来 达成 一 系列 目的 。 他 们 不 仅仅 是 讲述 同一 件 事 的 不 
同方 式 。 


最 后 ， 需 要 选择 一 个 对 你 和 应 用 有 意义 的 策略 。 决 定 选择 一 个 完 
全 的 端 到 端 (end-to-end) 高 可 用 性 策略 并 不 能 通过 简单 的 经 验 法 则 来 
处 理 ， 但 我 们 给 出 的 一 些 粗略 的 指引 也 许 会 有 所 帮助 。 


为 了 获得 很 短 的 宕 机 时 间 ， 需 要 见 余 服务 器 能 够 及 时 地 接管 应 用 
的 工作 负载 。 它 们 必须 在 线 并 一 直 执 行 查询 ， 而 不 仅仅 是 备用 ， 因 此 
它们 是 “ 预 热 ”过 的 ， 处 于 随时 可 用 的 状态 。 


如 果 需 要 很 强 的 可 用 性 保证 ， 就 需要 诸如 MySQL Cluster, 
Percona XtraDB Cluster， 或 者 Clustrix 这 样 的 集群 产品 。 如 果 能 容忍 在 
故障 转移 过 程 中 稍微 慢 一 些 ， 标 准 的 MySQL 复 制 也 是 个 很 好 的 选择 。 


要 谨慎 使 用 自动 化 故障 转移 机 制 ， 如 果 没 有 按照 正确 的 方式 工作 ， 它 
们 可 能 会 破坏 数据 。 


如 果 不 是 很 在 意 故 障 转移 花费 的 时 间 ， 但 希望 避免 数据 丢失 ， 就 
需要 一 些 强力 保证 数据 的 元 余 一 一 例如 ， 同 步 复制 。 在 存储 层 ， 这 可 
以 通过 廉价 的 DRBD 来 实现 ， 或 者 使 用 两 个 昂贵 的 SAN 来 进行 同步 复 
制 。 也 可 以 选择 在 数据 库 层 复制 数据 ， 可 以 使 用 的 扩 术 包括 MySQL 
Cluster, Percona XtraDB Cluster 或 者 Clustrix。 也 可 以 使 用 一 些 中 间 
件 ， 例 如 Tungsten Replicator。 如 果 不 需 要 强 有 力 的 保护 ， 并 且 希 望 尽 
量 保证 简单 ， 那 么 正常 的 异步 复制 或 半 同 步 复 制 在 开销 合理 时 可 能 是 
很 好 的 选择 。 


或 者 也 可 以 将 应 用 放 到 云 中 。 为 什么 不 呢 ? 这样 难道 不 是 能 够 立 
刻 获 得 高 可 用 性 和 无 限 扩展 能 力 吗 ? 下 一 章 将 继续 探讨 这 个 问题 。 


(2) 我 们 在 一 个 宛 长 的 白皮书 中 完整 地 描述 了 对 客户 的 宕 机 事故 的 分 析 ， 并 于 随后 在 另 一 
份 白皮书 中 介绍 了 如 何 防 止 宕 机 ， 包 括 可 以 定期 执行 的 详细 检查 清单 。 本 书 没有 这 么 多 篇 幅 
来 描述 所 有 的 细节 ， 你 可 以 从 Percona 的 网 站 (http:/www.percona.com) 获得 这 两 份 白皮书 。 

(2) 这 是 100% 跨 平台 兼容 的 。 

(3) 这 里 推荐 两 篇 反驳 常识 的 文章 : Richard Cook 的 论文 “How Complex Systems Fail” 

( http://www. _ ctlab.org/documents/How%20Complex% 20Systems%20Fail.pdf ) 和 Malcolm 

Gladwell 在 他 的 What the Dog Saw (Little, Brown) 一 书 中 关于 挑战 者 号 航天 飞机 灾难 事件 的 文 
章 。 

(4) 感觉 太 偏执 了 ? 检查 你 的 宛 余 网 络 连 接 是 不 是 真 的 连接 到 不 同 的 互联 网 主干 ， 确 保 它 
们 的 物理 位 置 不 在 同一 条 街道 或 者 同一 个 电线 杆 上 ， 这 样 它们 才 不 会 被 同一 个 挖 土 机 或 者 汽 
车 破坏 掉 。 

(5) Percona Server 提 供 了 一 个 新 特性 ， 能 够 把 buffer pool 保 存 下 来 并 在 重启 后 还 原 ， 在 使 
用 共享 存储 时 能 够 很 好 地 工作 。 这 可 以 减少 几 个 小 时 甚至 好 几 天 的 预 热 时 间 。MySQL 5.6 也 
有 相似 的 特性 。 


(6) MySQL 5.6.8 之 后 InnoDB 也 增加 了 一 个 只 读 模 式 ， 可 以 只 读 的 方式 用 多 个 实例 访问 一 
份 只 读数 据 文件 。 译 者 注 

D 事实 上 可 以 调整 DRDB 的 同步 级 别 ， 将 其 设置 成 异步 等 待 远程 设备 接收 数据 ， 或 者 在 
远程 设备 将 数据 写 入 磁盘 前 一 直 阻 塞 住 。 同 样 ， 强 烈 建议 为 DRBD 专 门 使 用 一 块 网 卡 。 

(8) 这 里 的 意思 应 该 是 innodb_flush_log_at_trx_commit=1 的 情况 。 译 者 注 

(9) 另 一 方面 ， 大 的 序列 写 入 又 是 另外 一 种 情况 ， 由 DRBD 导 致 的 增加 的 延迟 实际 上 消失 
了 ， 但 吞吐 量 的 限制 依然 存在 。 一 个 合适 的 RAID 阵 列 能 够 提供 200 一 500MB/s 的 序列 写 入 吞 
吐 ， 大 大 超过 千 焰 网 络 所 能 获得 的 吞吐 量 。 

(10) MySQL 5.5 支 持 半 同步 复制 ， 参 见 第 10 章 。 

(11) Galera 技 术 由 Codership Oy (http:/www.codership.com) 开发 ， 可 以 作为 一 个 补丁 在 标 
准 的 MySQL 和 InnoDB 中 使 用 。Percona XtraDB Cluster 除 了 其 他 特性 和 功能 外 ， 还 包含 这 组 补 
本 的 修改 版 本 . Percona XtraDB Cluster 是 一 个 可 以 直接 使 用 的 基于 Galera 的 解决 方案 。 

(12) 你 可 以 通过 配置 主 备 只 写 入 其 中 一 个 节点 来 实现 ， 但 在 集群 配置 中 ， 对 于 这 种 模式 
的 操作 没有 什么 不 同 。 

(13) 在 本 小 节 我 们 会 很 小 心 ， 以 避免 产生 混淆 。 宛 余 并 不 等 同 于 高 可 用 性 。 

(14) 我 们 同样 在 开发 基于 Pacemaker 和 Linux-HA 栈 的 解决 方案 ， 但 并 不 准备 在 本 书 中 提 
及 。 这 个 脚注 稍 后 会 自 毁 ，10..………9.……8..……. 


第 13 章 ”云端 的 MySQL 


许多 人 在 云 中 使 用 MySQL， 有 了 时候 规模 还 非常 庞大 ， 这 并 不 厨 
怪 。 从 我 们 的 经 验 来 看 ， 大 多 数 人 使 用 的 是 Amazon Web Services 平 台 
(AWS) : 特别 是 Amazon 的 弹性 计算 云 (Elastic Compute Cloud , 
EC2) ， 弹 性 块 存储 (Elastic Block Store, EBS) ， 以 及 更 小 众 的 关系 
数据 库 服务 (Relational Database Service，RDS) 。 


为 了 便于 讨论 MySQL 在 云 中 的 应 用 ， 可 以 将 其 粗略 分 为 两 类 。 
laas (基础 设施 即 服务 ) 


Jaas 是 用 于 托管 目 有 的 MySQL 服 务 器 的 云端 基础 架构 。 可 以 
在 云端 购买 虚拟 的 服务 器 资源 来 安装 运行 MySQL 实 例 。 也 可 以 根 
据 需求 随意 配置 MySQL 和 操作 系统 ， 但 没有 权限 也 无 法 看 到 处 于 
底层 的 物理 硬件 设备 。 


DBaas (数据 库 即 服务 ) 


MySQL 本 身 作为 由 云端 管理 的 资源 。 用 户 需 要 先 收 到 
MySQL 服 务 器 的 访问 许可 (通常 是 一 个 连接 串 ) 才能 访问 。 也 可 
以 配置 一 些 MySQL 选 项 ， 但 没有 权限 去 控制 或 查看 底层 的 操作 系 
统 或 虚拟 服务 器 实例 。 例 如 Amazon 运 行 MySQL 的 RDS。 其 中 一 
些 服务 器 并 非 真 的 使 用 MySQL ， 但 它们 能 兼容 MySQL 协 议和 查 
询 语言 。 


我 们 讨论 的 重点 主要 集中 在 第 一 类 : 云 托管 平台 ;例如 AWS、 
Rackspace Cloud 以 及 Joyentt?。 有 许多 很 好 的 资源 介绍 如 何 部 署 和 管理 


MySQL 及 其 运行 所 需要 的 资源 ， 并 且 也 有 非常 多 的 平台 来 完全 满足 这 
样 的 需求 ， 所 以 我 们 不 会 展示 代码 样 例 或 讨论 具体 的 操作 技术 。 因 
此 ， 本 章 关注 的 重点 是 ， 在 云端 运行 MySQL 还 是 在 传统 服务 器 上 部 署 
MySQL， 它 们 在 最 终 经 济 上 和 性 能 特性 上 的 关键 区 别 是 什么 。 我 们 假 


定 你 对 云 计 算 很 熟悉 。 这 里 不 是 对 云 计 算 概 念 的 简单 介绍 ， 我 们 的 目 
的 只 是 帮助 那些 还 不 熟悉 在 云端 部 署 MySQL 的 用 户 在 使 用 时 避免 一 些 


可 能 遇 到 的 陷阱 。 


一 般 来 说 ，MySQL 能 够 在 云 中 很 好 地 运行 。 在 云 中 运行 MySQL 
并 不 比 在 其 他 平台 困难 ， 但 有 一 些 非常 重要 的 差别 。 你 需要 注意 这 些 
差别 并 据 此 设计 应 用 和 架构 来 获得 好 的 效果 。 某 些 场景 下 在 云端 托管 
MySQL 并 不 是 非常 适合 ， 有 了 时候 则 很 适合 ,但 大 多 数 时 候 云 仅仅 是 另 
外 一 个 部 署 平台 而 已 。 


云 是 一 个 部 署 平 台 ， 而 不 是 一 种 架构 ， 理 解 这 一 点 很 午 要 。 染 构 
会 受 平 台 的 影响 ， 但 平台 和 架构 明显 不 同 。 如 果 你 把 染 构 和 平台 搞 间 
了 ， 就 可 能 会 做 出 不 合适 的 选择 而 给 以 后 带 来 麻烦 。 这 也 正 是 我 们 要 
伦 时 间 讨 论 云端 的 MySQL 到 底 有 什么 不 同 的 原因 。 


13.1 云 的 优 挟 、 缺 护 和 相关 误解 


云 计算 有 许多 优点 ， 但 很 少 是 为 MySQL 特 别 设计 。 有 一 些 书籍 已 
经 介绍 了 相关 的 话题 入， 这 里 我 们 不 再 费 述 。 不 过 我 们 会 列 出 一 些 比 
较 重 要 的 条 目 供 参考 ， 因 为 接 下 来 会 讨论 到 云 计 算 的 缺点 ， 我 们 不 项 
望 你 认为 我 们 是 在 过 分 苛求 云 计算 。 


云 是 一 种 将 基础 设施 外 包 出 去 无 须 自 己 管理 的 方法 。 你 不 需要 寻 
找 供 应 商 购买 硬件 ， 也 不 需要 维护 和 供应 商 之 间 的 关系 ， 更 无 须 
替换 失效 的 硬盘 驱动 器 等 。 

云 一 般 是 按照 即 用 即 付 的 方式 支付 ， 可 以 把 前 期 的 大 量 资本 支出 
转换 为 持续 的 运营 成 本 。 

随 着 供应 商 发 布 新 的 服务 和 成 本 降低 ， 云 提供 的 价值 越 来 越 大 。 
你 自己 无 须 做 任何 事情 (例如 升级 服务 器 ) ， 就 可 以 从 这 些 提升 
中 获 益 ; 随 着 时 间 推 移 你 会 很 容易 地 获得 更 多 更 好 的 选择 并 且 费 
用 更 低 。 

云 能 够 帮助 你 轻松 地 准备 好 服务 器 和 其 他 资源 ， 在 用 完 后 直接 将 
其 关闭 ， 而 无 须 关 注 怎么 处 理 它 们 ， 或 者 怎么 卖 掉 它们 收回 成 
本 。 

云 代 表 了 对 基础 设施 的 另 一 种 思考 方式 一 一 作为 通过 API 来 定义 
和 控制 的 资源 一 -支持 更 多 的 自动 化 操作 。 从 “私有 云 ” 中 也 可 以 
获得 这 些 好 处 。 


当然 ， 不 是 所 有 跟 云 相关 的 东西 都 是 好 的 。 这 里 有 一 些 缺 点 可 能 


会 构成 挑战 (在 本 章 稍 后 部 分 我 们 会 列 出 MySQL 特 有 的 缺点 ) o 


资源 是 共享 并 且 不 可 预测 的 ， 实 际 上 你 可 以 获得 比 你 支付 的 更 多 
的 资源 。 这 听 起 来 很 不 错 ， 但 却 导 致 容量 规划 很 难 做 。 如 果 你 在 
不 知情 的 情况 下 获得 了 比 理应 享受 到 的 更 多 的 计算 资源 ， 那 么 就 
存在 这 样 的 风险 : 别人 也 许 会 索要 他 们 应 得 的 资源 ， 这 会 使 你 的 
应 用 性 能 退化 到 应 有 的 水 平 。 一 般 来 说 ， 很 难 确切 地 知道 本 来 应 
该 得 到 多 少 《资源 ) ， 大 多 数 云 托管 服务 提供 商 不 会 对 此 给 出 确 
切 的 答案 。 


。 无 法 保证 容量 和 可 用 性 。 你 可 能 以 为 还 可 以 获得 新 实例 ， 但 如 果 
供应 商 已 经 超额 销售 了 呢 ? 这 在 有 很 多 共享 资源 的 情况 下 会 发 
生 ， 同 样 也 会 发 生 在 云 中 。 

虚拟 的 共享 资源 导致 排查 故障 更 加 困难 ， 特 别 是 在 无 法 访问 底层 
物理 硬件 的 情况 下 无 法 检查 并 弄 清 到 底 发 生 了 什么 。 例 如 ， 我 们 
曾经 看 到 过 一 些 系 OR E 
CPU 很 正常 ， 而 当 实 际 衡量 完成 一 个 任务 需要 的 时 间 时 ， 资 源 却 
PRAIS FAEEEHT. 如 果 在 云 平 台 上 出 现 了 性 能 问 
题 ， 尤 其 需要 去 仔细 地 分 析 检 测 。 如 果 对 此 并 不 擅长 ， 可 能 就 无 
法 确认 到 底 是 底层 系统 性 能 差 ， 还 是 你 做 了 什么 事情 导致 应 用 出 
现 不 合理 的 资产 需求 。 


总 的 来 说 ， 云 平台 上 对 性 能 、 可 用 性 和 容量 的 透明 性 和 控制 力 都 
有 所 下 降 。 最 后 ， 还 有 一 些 对 云 的 误解 需要 记 住 。 


云天 生 具 备 更 好 的 可 扩展 性 


应 用 、 云 的 架构 ， 以 及 管理 云 服 务 的 组 织 是 不 是 都 是 可 扩展 
的 。 云 并 不 是 天 生 可 扩展 的 ， 云 也 仅仅 是 云 而 已 ， 选 择 一 个 可 扩 
展 的 平台 并 不 能 自动 使 应 用 变 得 可 扩展 。 的 确 ， 如 果 云 托管 提供 
商 没 有 超 售 ， 那 么 你 可 以 根据 需求 来 购买 资源 ， 但 在 需要 时 能 够 
获得 资源 仅仅 是 扩展 性 的 一 个 方面 而 已 。 


云 可 以 目 动 改善 甚至 保证 可 用 时 间 


一 般 来 说 ， 个 别 在 云端 托管 的 服务 器 比 那些 经 过 良好 设计 的 
ae 但 是 许多 人 并 没有 意 
识 到 这 一 点 。 例 如 ， 有 人 这 样 写 道 :“ 我 们 将 基础 设施 升级 到 基于 


云 构建 的 系统 以 保证 100% 的 可 用 时 间 和 可 扩展 性 ”。 而 就 在 这 之 
前 AWS 遭 受 了 两 次 大 规模 的 运行 中 断 故 障 ， 导 致 很 大 一 部 分 用 户 
受 影响 。 好 的 架构 能 够 用 不 可 靠 的 组 件 设计 出 可 靠 的 系统 ， 但 通 
常 更 可 靠 的 基础 设施 可 以 获得 更 高 的 可 用 性 。 (当然 不 可 能 

100% 的 可 用 时 间 的 系统 。) 


另 一 方面 ， 购 买 云 计算 服务 ， 实 际 上 是 购买 一 个 由 专家 构建 
的 平台 。 他 们 已 经 考虑 了 许多 底层 的 东西 ， 这 意味 着 你 可 以 更 专 
注 于 上 层 工 作 。 如 果 构 建 目 己 的 平台 而 对 其 中 的 那些 细 术 末节 并 
不 精通 ， 就 可 能 犯 一 些 初 学 者 的 错误 ， 早 晚会 导致 一 些 宕 机 时 
间 。 从 这 一 点 来 说 ， 云 计算 能 够 帮助 改善 可 用 时 间 。 


云 是 唯一 能 提供 [这 里 填 入 任意 的 优点 ] 的 东西 


事实 上 ,许多 云 的 优点 是 继承 自 构 建 云 平台 所 用 到 的 技术 ， 
即使 不 使 用 云 也 可 以 获得 中 。 例 如 ， 通 过 管理 得 当 的 虚拟 化 和 容 
量规 划 ， 可 以 像 任 何 一 个 云 平台 那样 简单 快速 地 启动 (spin up) 
一 台新 的 机 器 。 完 全 疫 必 要 专门 使 用 云 来 做 到 这 一 点 。 


云 是 一 个 “ 银 弹 ” (silver bullet) 


虽然 大 部 分 人 会 认为 这 很 荒 廖 ， 但 确实 有 人 会 这 么 认为 。 实 

际 上 完全 没有 这 回 事 。 
无 可 否认 ， 云 计算 提供 了 独特 的 优 点 ， 随 着 时 间 的 推移 ， 天 于 云 
计算 是 什么 ， 以 及 它们 在 什么 情况 下 会 有 帮助 ， 我 们 会 获得 更 多 的 共 
识 。 但 有 一 点 非常 肯定 : 它 是 全 新 的 ， 我 们 现在 所 做 的 任何 预测 都 未 


必 经 得 起 时 间 的 考验 。 我 们 会 在 本 书 讨论 相对 安全 的 部 分 ， 而 将 剩 下 
的 部 分 留 给 读者 讨论 。 


13.2 MySQL 在 云端 的 经 济 价值 


在 一 些 场景 下 云 托管 比 传统 的 服务 器 部 署 方式 更 经 济 。 以 我 们 的 
经 验 来 看 ， 云 托管 比较 适合 尚 处 于 初级 阶段 的 企业 ， 或 者 那些 持续 接 
触 新 概念 并 且 本 质 上 是 以 适用 为 主 的 企业 ， 例 如 移动 应 用 开发 者 或 游 
戏 开发 者 。 这 些 技术 的 市 场 随 着 移动 计算 的 扩张 出 现 了 爆炸 式 增长 ， 
并 且 仍 然 是 快速 发 展 的 领域 。 在 许多 情况 下 ， 成 功 的 因素 并 不 为 开发 
者 所 控制 ， 例 如 口 口 相传 的 推荐 或 者 恰 才 重要 国际 事件 的 时 机 。 


我 们 已 经 帮助 很 多 公司 在 云 中 构建 移动 应 用 、 社 交 网 络 以 及 游戏 
应 用 。 其 中 一 个 他 们 大 量 使 用 的 策略 是 尽 可 能 又 快 又 便宜 地 开发 和 发 
布 应 用 。 如 果 一 个 应 用 碰巧 变 得 流行 了 ， 公 司 将 投入 资源 扩大 其 规 
模 ; 否则 就 会 很 快 终结 这 些 应 用 。 一 些 公司 构建 并 发 布 的 应 用 的 生命 
周期 甚至 只 有 几 个 星期 ， 在 这 样 的 环境 下 ， 可 以 之 不 犹豫 地 选择 云 托 


人 
Eo 


如 果 是 一 个 小 规模 的 公司 ， 可 能 无 法 提供 足够 的 硬件 来 自 建 数据 
中 心 以 满足 一 个 非常 流行 的 Facebook 应 用 的 发 展 曲线 。 我 们 也 协助 过 
一 些 大 型 的 Facebook 应 用 进行 扩展 ， 它 们 能 够 以 今 人 惊讶 的 速度 增长 
一 一 有 时 甚至 会 快 到 让 一 个 主机 托管 公司 耗 尽 资 源 。 更 为 严重 的 是 ， 
这 些 应 用 的 增长 是 完全 无 法 预测 的 ， 它 们 可 能 只 有 极 少量 的 用 户 (也 
可 能 突然 有 了 爆炸 性 的 用 户 数量 增长 ) 。 我 们 在 数据 中 心 和 云 中 都 遇 
到 过 这 样 的 应 用 。 如 果 是 一 个 小 公司 ， 云 可 以 帮 你 避免 前 期 快速 注入 
大 量 的 资金 来 获得 更 快 更 大 规模 的 风险 。 


云 的 另 一 种 潜在 的 大 用 途 是 运行 不 是 很 重要 的 基础 设施 ， 例 如 集 
成 环境 、 开 发 测试 平台 ， 以 及 评估 环境 。 假 设 部 署 周期 是 两 个 星期 。 
你 会 每 天 每 个 小 时 都 测试 部 署 一 次 ， 还 是 只 在 项 目 最 后 的 冲刺 时 测 
试 ? 许多 用 户 只 是 偶尔 需要 筹划 和 部 署 测试 环境 。 在 这 种 场景 下 ， 云 
可 以 帮助 节约 不 少 钱 。 


以 下 是 我 们 使 用 云 的 两 种 方式 。 第 一 个 是 作为 我 们 对 技术 职员 面 
试 的 一 部 分 ， 我 们 会 询问 如 何 解 决 一 些 实际 的 问题 。 我 们 使 用 AMI 
(Amazon Machine Images) 来 模拟 一 些 被 “破坏 ”的 机 器 ， 然 后 让 求职 
者 登录 并 在 服务 器 上 执行 一 系列 任务 。 我 们 不 必 开 放 他 们 到 内 部 网 络 
的 授权 ， 这 种 方案 显然 要 方便 得 多 。 另 一 个 是 作为 新 项 目的 工作 平台 
和 开发 服务 器 。 有 一 个 这 样 的 项 目 已 经 在 一 台 云 端 开发 服务 器 上 运行 
了 数 个 月 ， 而 花费 不 足 一 美元 ! 这 在 我 们 自己 的 基础 设施 上 是 不 可 能 
做 到 的 。 单 是 发 送 一 封 邮件 给 系统 管理 员 申 请 开发 服务 器 的 时 间 价 值 
就 不 止 一 美元 。 


但 是 另 一 方面 ， 云 托管 对 于 长 期 项 目 而 言 可 能 会 更 加 昂贵 。 如 果 
打算 长 远 地 使 用 云 ， 就 需要 花 时 间 来 计算 一 下 〈 它 是 否 划算 ) o RT 
青 想 未 来 的 创新 能 给 云 计 算 和 商用 硬件 市 来 什么 ， 还 需要 做 基准 测试 
以 及 一 个 完整 的 总 体 持 有 成 本 (TCO) 账单 。 为 了 理 清 事情 的 本 质 并 
考虑 全 面 所 有 相关 的 细节 ， 你 需要 把 所 有 的 事情 最 终归 结 为 一 个 数 
F: 每 美元 的 业务 交易 数 。 事 情 变化 得 太 快 ， 所 以 我 们 将 这 个 留 给 读 
者 思考 。 


13.3” 云 中 的 MySQL 的 可 扩展 性 和 
高 可 用 性 


正如 我 们 之 前 提 到 的 ，MySQL 并 不 会 在 云端 自动 变 得 更 具 扩 展 
性 。 事 实 上 ， 如 果 机 器 的 性 能 较 差 ， 会 导致 过 早 使 用 横向 扩展 策略 。 
况且 云 托管 服务 器 相 比 专用 的 硬件 可 靠 性 和 可 预测 性 要 更 差 些 ， 所 以 
想 在 云端 获得 高 可 用 性 需要 更 多 的 创新 。 


但 是 总 的 来 说 ， 在 云端 中 扩展 MySQL 和 在 其 他 地 方 扩 展 没有 太 多 
的 差别 。 最 大 的 不 同 惑 是 按 需 提供 服务 器 的 能 力 。 但 是 也 有 某 些 限制 
会 导致 扩展 和 高 可 用 实现 起 来 有 点 有 麻 烦 ， 至 少 在 有 些 云 环境 中 是 这 样 
的 。 例 如 ， 在 AWS 云 平台 中 ， 无 法 使 用 类 似 虚 拟 IP 地 址 的 功能 来 完成 
快速 原子 故障 转移 。 像 这 种 对 资源 的 有 限 控制 意味 着 你 需要 使 用 其 他 
办 法 ， 例 如 代理 。 (ScaleBase 也 值得 去 看 看 。) 


云 另 外 一 个 迷惑 人 的 地 方 是 梦想 中 的 自动 扩展 一 一 就 是 根据 需求 
的 增加 或 减少 来 启动 或 关闭 实例 。 尽 管 对 于 诸如 Web 服 务 器 这 样 的 无 
状态 部 分 是 可 行 的 ， 但 对 于 数据 库 服务 器 而 言 则 很 难 做 到 ， 因 为 它 是 
有 状态 的 。 对 于 一 些 特定 的 场景 ， 例 如 以 读 为 主 的 应 用 ， 可 以 通过 增 
加 备 库 的 方式 来 获得 有 限 的 自动 扩展 外， 但 这 并 不 是 一 个 通用 的 解决 
方案 。 实 际 上 ， 虽 然 许 多 应 用 在 web 层 使 用 了 自动 扩展 ， 但 MySQL 并 
不 具备 在 一 个 无 共享 (Shared Nothing) 集群 中 的 对 等 角色 服务 器 之 间 
迁移 的 能 力 。 你 可 以 通过 分 片 架 构 来 自动 重新 分 片 并 自动 增长 或 收缩 
3),， 但 MySQL 本 身 是 无 法 自动 扩展 的 。 


事实 上 ， 因 为 数据 库 通常 是 一 个 应 用 系统 中 主要 或 唯一 的 有 状态 
并 且 持 久 化 的 组 件 ， 所 以 把 应 用 服务 迁移 到 云端 是 很 普遍 的 事情 ， 因 
为 除数 据 库 之 外 的 所 有 部 分 都 可 以 从 云 中 收益 一 一 Web 服 务 器 、 工 作 
队列 服务 器 、 缓 存 等 一 一 而 MySQL 只 需要 处 理 剩 下 的 东西 。 毕 竟 ， 数 
据 库 并 非 世界 的 中 心 。 如 果 应 用 系统 其 他 部 分 获得 的 好 处 ， 超 过 了 让 
MySQL 运 行 得 足够 好 而 投入 的 额外 开销 和 必需 的 工作 量 ， 那 这 不 是 一 


个 是 否 会 友 生 的 问题 ， 而 是 怎么 发 生 的 问题 。 要 回 从 这 个 问题 ， 最 好 
先 了 解 你 在 云 中 可 能 磁 到 的 额外 的 挑战 。 这 些 通常 围绕 着 数据 库 服务 
器 的 可 用 资产。 


13.4 ”四 种 基础 资源 


MySQL 需 要 四 种 基础 资源 来 完成 工作 : CPU 周期 、 内 存 、IO， 


以 及 网 络 。 这 四 种 资源 的 特性 和 重要 程度 在 不 同 的 云 平 台 上 各 不 相 


同 。 


可 以 通过 了 解 它们 的 不 同 之 处 和 对 MySQL 的 影响 ， 以 决定 是 否 选 


择 在 云 中 托管 MySQL。 


CPU 通 常 很 少 且慢 。 在 写作 本 书 时 最 大 的 标准 EC2 实 例 提供 8 个 虚 
拟 CPU 核 心 。EC2 提 供 的 虚拟 CPU 比 高 端 CPU 的 速度 明显 要 慢 很 
多 (可 以 查看 本 章 稍 后 的 基准 测试 结果 ) 。 虽 然 可 能 略 有 不 同 ， 
但 很 可 能 在 大 多 数 云 托 管 平台 中 这 都 是 一 种 普遍 现象 。EC2 提 供 
使 用 多 个 CPU 资 源 的 实例 ， 但 它们 的 最 大 可 用 内 存 却 更 低 。 在 写 
作 本 书 时 商用 服务 器 能 提供 几 十 个 CPU 核 心 一 一 甚至 更 多 ， 如 果 
按 硬件 线程 算 的 话 。® 

内 存 大 小 受 限制 。 最 大 的 EC2 实 例 当 前 能 提供 68.4GB 的 内 存 。 5 
此 相 比 ， 商 用 服务 器 能 提供 512GB~1TB 的 内 存 。 

IO 的 吞吐 量 、 延 迟 以 及 一 致 性 受到 限制 。 在 AWS 云 中 有 两 个 存储 
选项 。 

第 一 个 选择 是 使 用 EBS 卷 ， 这 有 点 类 似 云 中 的 SAN。AWS 的 最 住 
实践 是 在 用 EBS 组 建 的 RAID10 卷 上 建立 服务 器 。 但 是 EBS 是 一 个 
共享 资源 ， 就 像 EC2 服 务 器 和 EBS 服 务 器 之 间 的 网 络 连接 。 延 迟 
可 能 会 很 高 并 且 不 可 预测 ， 即 使 是 在 适量 的 吞吐 量 需 求 下 也 是 如 


此 。 我 们 已 经 测 得 EBS 设 备 的 MO 延迟 可 以 达到 十 几 分 之 一 秒 。 相 
比 之 下 ， 直 接 插 在 本 机 的 商用 硬盘 驱动 器 只 需 几 个 毫秒 ， 而 闪存 
设备 比 硬盘 驱动 器 的 速度 又 要 高 出 几 个 数量 级 。 但 另 一 方面 ， 
EBS 卷 也 有 许多 很 好 的 特性 ， 例 如 和 其 他 AWS 服 务 、 快 照 等 结合 
起 来 使 用 。 

第 二 个 选择 是 实例 的 本 地 存储 。 每 个 EC2 服 务 器 有 一 定数 量 的 本 
地 存储 ， 实 际 安装 在 底层 服务 器 上 。 它 能 够 比 EBS 提 供 更 多 的 一 
致 性 性 能 急 ， 但 如 果实 例 停 止 了 就 无 法 做 到 持久 化 。 正 是 由 于 这 
样 的 特性 导致 其 不 适合 大 多 数 的 数据 库 服 务 器 场景 。 

尽管 网 络 通常 是 一 个 变化 多 端的 共享 资源 ， 但 是 性 能 通常 比较 
好 。 虽 然 使 用 商用 硬件 可 以 获得 更 快 更 持续 的 网 络 性 能 ， 但 
CPU、RAM 和 IO 更 容易 成 为 主要 的 性 能 瓶颈 ， 在 AWS 云 中 我 们 
还 没有 遇 到 过 网 络 性 能 问题 。 


正如 你 所 看 到 的 ， 四 种 基础 资源 中 有 三 种 在 AWS 云 中 是 受 限 的 ， 
在 某 些 场景 下 尤其 明显 。 总 的 来 说 ， 这 些 基础 资源 并 疫 有 丙 业 硬件 那 
样 的 性 能 。 下 一 节 我 们 会 讨论 这 些 确 切 的 结论 。 


13.5 ”MySQL 在 云 主机 上 的 性 能 


通常 ， 由 于 较 差 的 CPU、 内 存 以 及 1/O 性 能 ， 在 类 似 AWS 这 样 的 云 
托管 平台 上 MySQL 所 表现 出 来 的 性 能 并 不 如 在 其 他 地 方 好 。 这 些 情况 
在 不 同 的 云 平台 之 间 略 有 不 同 ， 但 这 依然 是 普遍 的 事实 @。 然 而 对 于 
你 的 需求 而 言 ， 云 主机 可 能 仍然 是 一 个 性 能 足够 高 的 平台 ， 在 某 些 需 
求 上 云 平台 可 能 比 另外 的 解决 方案 要 好 。 


如 果 使 用 更 糟糕 的 硬件 来 运行 MySQL ， 无 法 让 MySQL 性 能 比 托 
管 在 云 平 台 上 更 高 ， 这 并 不 奇怪 。 真 正 让 人 感到 困惑 的 是 在 相似 规格 
的 物理 硬件 条 件 下 却 无 法 获得 同样 的 运行 速度 。 例 如 ， 如 果 有 一 台 服 
务 器 拥有 8 个 CPU 核心 ，16GB 内 存 以 及 一 个 中 等 的 RAID 阵 列 ， 你 可 能 
认为 能 够 获得 和 一 个 拥有 8 个 EC2 计 算 单 元 、15GB 内 存 以 及 少量 EBS 卷 
的 EC2 实 例 相 同 的 性 能 ， 但 这 是 无 法 保证 的 。EC2 实 例 的 性 能 可 能 比 
你 的 物理 硬件 更 加 多 变 ， 特 别 是 它 不 是 一 个 超大 实例 时 ， 可 以 推测 它 
跟 其 他 实例 共享 了 同样 的 硬件 资源 。 


稳定 性 确实 非常 重要 。MySQL 和 InnoDB 尤 其 不 喜欢 不 稳定 的 性 能 
特别 是 不 稳定 的 IO 性 能 。IO 操 作 会 请 求 服 务 器 内 部 的 互 斥 锁 ， 
当 持 续 时 间 太 长 时 ， 就 会 显著 地 导致 很 多 “阻塞 ”进程 堆积 起 来 ， 出 现 
令 人 难以 理解 的 长 时 间 运 行 的 查询 语句 ， 以 及 例如 Threads_running 或 
Threads_connected 这 样 的 状态 变量 产生 毛刺 。 


实际 应 用 中 前 后 不 一 致 或 者 无 法 预测 的 性 能 导致 的 结果 就 是 排队 
变 得 越 来 越 严 重 。 排 队 是 响应 时 间 和 到 达 间 隔 时 间 多 变 自 然 会 导致 的 
结果 ， 并 且 有 个 完整 的 数学 分 支 专门 致力 于 排队 的 研究 。 所 有 的 计算 
机 都 是 队列 系统 的 网 络 ， 当 需要 请 求 的 资源 〈CPU、LIO， 网 络 ， 等 
等 ) 繁忙 时 ， 请 求 必须 等 待 。 当 资源 性 能 更 加 多 变 时 ， 请 求 更 容易 堆 
二 ,会 出 现 更 多 的 排队 现象 。 因 此 ， 在 大 多 数 云 计算 平台 上 很 难 获得 
高 并 发 或 者 稳定 的 低 响 应 时 间 。 我 们 有 很 多 次 在 EC2 平 台 上 遭受 到 这 
个 限制 的 经 验 。 以 我 们 的 经 验 来 看 ， 即 便 在 最 大 的 实例 上 运行 的 
MySQL ， 在 典型 的 web OLTP 工 作 负 载 上 ， 你 能 够 期 待 的 最 高 并 发 度 
也 就 是 Threads_running 值 为 8 一 12。 根 据 经 验 ， 当 超过 这 个 值 时 ， 性 能 
会 越 来 越 不 可 接受 。 


注意 我 们 所 说 的 “上 典型 的 Web OLTP 工 作 负 载 *， 并 非 所 有 的 工作 负 
载 都 以 相同 的 方式 反映 云 平台 的 限制 。 确 实 有 一 些 工 作 负 载 在 云 中 表 
现 得 很 好 ， 而 有 一 些 则 受到 严重 影响 ， 让 我 们 看 看 到 底 有 哪些 。 


。 正如 我 们 刚 讨论 的 ， 需 要 高 并 发 的 工作 负载 并 不 是 非常 适合 云 计 
算 。 对 于 那些 要 求 非常 快 的 响应 时 间 的 应 用 同样 如 此 。 原 因 可 以 
归结 于 虚拟 CPU 的 数目 和 速度 方面 的 限制 。 每 个 MySQL 碍 询 运 行 
在 一 个 单独 的 CPU 上 ， 所 以 查询 响应 时 间 实 际 上 是 由 CPU 的 原始 
速度 决定 的 。 如 果 期 望 得 到 更 快 的 响应 时 间 ， 就 需要 更 快 的 
CPU。 为 了 支持 更 高 的 并 发 度 ， 你 需要 更 多 的 CPU。MySQL 和 
InnoDB 不 会 因为 运行 在 大 量 CPU 核 心 上 而 提供 爆炸 式 的 改进 ， 但 
目前 通常 能 在 至 少 24 个 核心 上 获得 比较 好 的 横向 扩展 ， 这 通常 比 
在 云 中 能 够 获得 的 核心 数 更 多 。 

那些 需要 大 量 WO 的 工作 负载 在 云 中 并 不 总 是 表现 很 好 。 当 LO 很 
慢 并 且 不 稳定 时 ， 工 作 会 很 快 中 断 。 但 另 一 方面 ， 如 果 你 的 工作 
负载 不 需要 太 多 的 IO ， 不 管 是 吞吐 量 (每 秒 的 执行 量 ) 还 是 带宽 
(每 秒 字 节 数 ) ，MySQL 就 可 以 运行 得 很 好 。 


之 前 的 几 点 是 根据 云端 的 CPU 和 IO 资源 的 缺点 得 出 的 。 那 么 关于 
这 些 你 可 以 做 点 什么 呢 ? 对 于 CPU 限制 你 做 不 了 太 多 ， 不 够 就 是 不 
够 。 但 是 IO 则 不 同 。IO 实 际 上 是 两 种 存储 器 的 交换 : 非 永久 存储 器 
(RAM) 和 持久 化 存储 器 (磁盘 、EBS， 或 者 其 他 你 所 拥有 的 ) o 
此 MySQL 的 IO 需求 会 受 系 统 内 存 大 小 的 影响 。 当 有 足够 的 内 存 时 ， 
可 以 从 缓存 中 读 取 数据 ， 从 而 减少 读 和 写 操作 的 WO。 写 入 同样 可 以 组 
存在 内 存 里 ， 多 个 对 相同 内 存 比特 位 的 写 入 可 以 合并 成 单个 IO 操作 。 


内 存 的 限制 融 出 现 了 。 当 拥有 足够 的 内 人 存 来 存放 工作 数据 集 时 
B， 某 些 工 作 负载 的 MO 需求 可 以 明显 减少 。 更 大 的 EC2 实 例 也 会 提供 


更 好 的 网 络 性 能 ， 更 有 利于 EBS 卷 的 VO。 但 如 果 工 作 集 太 大 ， 无 法 装 
入 可 用 的 最 大 实例 ， 则 IO 需求 会 逐渐 上 升 ， 并 开始 阻塞 甚至 停止 服 
务 ， 正 如 我 们 之 前 讨论 的 那样 。EC2 中 内 存 最 大 的 实例 能 够 很 好 地 为 
许多 工作 负载 提供 足够 的 内 存 。 但 是 你 需要 意识 到 ， 预 热 时 间 可 能 会 
IRK; 关于 这 一 话题 本 节 后 面 会 有 更 多 的 讨论 。 


哪 种 类 型 的 工作 负载 无 法 通过 增加 更 多 的 内 存 来 解决 呢 ? 除了 缓 
存 外 ， 一 泽 写 入 很 大 的 工作 负载 需要 的 IO 比 你 能 从 多 数 云 计算 平台 上 
获得 的 要 多 。 例 如 ， 如 果 每 秒 执行 事务 数 很 多 ， 那 么 每 秒 就 需要 执行 
更 多 的 1/O 操 作 以 保证 持久 性 。 你 只 能 从 诸如 EBS 这 样 的 系统 中 获得 这 
么 多 的 吞吐 量 。 同 样 地 ， 如 果 你 正在 将 大 量 数据 写 入 到 数据 库 中 ， 可 


能 会 超过 可 用 的 带宽 。 


你 可 能 认为 通过 RAID 来 为 EBS 卷 进行 条 带 (striping) 和 镜像 可 以 
改善 VO 性 能 。 在 某 种 程度 上 确实 有 帮助 。 问 题 是 ， 当 增加 更 多 的 EBS 
卷 时 ， 在 我 们 需要 某 个 EBS 卷 的 任意 时 间 点 都 增加 了 它 性 能 变 差 的 可 
能 性 ， 而 根据 mnoDB 内 部 IO 工作 的 方式 ， 最 差 的 一 环 通常 是 整个 系 
统 的 瓶颈 。 实 际 上 ， 我 们 已 经 党 试 过 10 和 20 个 EBS 卷 的 RAID 10 集 合 ， 
20 卷 的 RAID 比 10 卷 的 遭遇 了 更 多 的 停顿 (stall) 问题 。 当 我 们 测量 底 
层 块 设备 的 MO 性 能 时 ， 很 明显 只 有 一 或 两 个 EBS 卷 表现 得 很 慢 ， 但 是 
却 已 经 影响 了 整个 系统 。 


你 也 可 以 改变 应 用 和 服务 器 来 减少 MO 需求 ， 考 虑 周到 的 逻辑 和 物 
理 数 据 库 设 计 (Schema 和 索引 ) 对 于 减少 WO 请 求 大 有 帮助 ， 应 用 程序 
优化 和 查询 优化 也 一 样 。 这 是 减少 W/O 最 有 效 的 手段 。 例 如 插入 量 很 大 
的 工作 负载 ， 明 智 地 使 用 分 区 ， 将 MO 集中 到 索引 能 完全 加 载 到 内 存 中 
的 单个 分 区 上 ， 就 会 有 所 帮助 。 你 也 可 以 通过 设置 
innodb_flush_logs_at_trx_commit=2 和 sync_binLog=0 来 降低 持久 


性 ， 或 者 将 InnoDB 事 务 日 志和 二 进 制 日 志 从 EBS 卷 中 转移 到 一 个 本 地 
驱动 器 上 (尽管 这 有 风险 ) 。 但 是 你 从 服务 器 上 压榨 一 点 额外 的 性 能 
越 困 难 ， 就 越 不 可 避免 地 要 引入 更 大 的 复杂 性 (以 及 它们 的 成 本 ) o 


此 外 还 可 以 升级 MySQL 服 务 器 软件 。 新 版 本 的 MySQL 和 InnoDB 
(最 新 的 使 用 mnoDB Plugin 的 MySQL 5.1， 或 者 MySQL 5.5 及 更 新 的 
版 本 ) 能 够 提供 更 好 的 IO 性 能 以 及 更 少 的 内 部 瓶颈 ， 并 且 相 比 5.1 及 
之 前 的 版 本 遭受 的 停顿 和 堆积 会 少 很 多 。Percona Server f RETF fA 
载 下 能 够 提供 更 多 的 好 处 。 例 如 ，Percona Server 的 快速 预 热 缓 冲 闻 特 
性 在 服务 器 重启 后 能 够 帮助 备用 服务 器 快速 运行 起 来 ， 特 别 是 IO 性 能 
不 是 很 好 并 且 服 务 器 依赖 于 内 存 时 。 这 也 是 我 们 讨论 能 在 云 中 获得 好 
的 性 能 的 候选 场景 ， 这 里 服务 器 比 备用 硬件 更 容易 发 生 故 障 。Percona 
Server 能 够 将 预 热 时 间 从 几 个 小 时 甚至 几 天 减少 到 几 分 钟 。 在 写作 本 
书 时 ， 类 似 的 预 热 特性 在 MySQL 5.6 的 开发 里 程 碑 版 本 里 已 经 可 用 
To 


尽管 最 终 一 个 增长 的 应 用 总 会 达到 一 个 顶点 ， 届 时 你 不 得 不 对 数 
据 库 进行 拆 分 以 保证 数据 能 够 存放 到 云 中 。 我 们 倾向 于 尽量 不 拆 分 ， 
但 如 果 你 只 有 这 么 点 马力 ， 当 达到 某 个 点 时 ， 就 不 得 不 去 其 他 地 方 
(离开 这 个 云 ) ， 或 者 将 其 拆 分 为 多 份 ， 使 每 份 数据 需要 的 资源 不 起 
过 虚拟 硬件 能 提供 的 。 通 常 当 工作 集 无 法 适应 内 存 大 小 时 就 得 要 进行 
分 片 了 ， 这 意味 着 在 最 大 的 EC2 实 例 上 的 工作 集 大 小 为 50GB ~ 
60GB。 与 之 相对 ， 我 们 已 经 有 很 多 在 物理 硬件 上 运行 几 个 TB 大 小 级 
别 数据 库 的 经 验 。 在 云 中 你 需要 更 早 进行 分 片 。 


135.1 ”在 云端 的 MySQL 基 准 测试 


我 们 进行 了 一 些 基 准 测试 以 说 明 MySQL 在 AWS 云 环境 中 的 性 能 。 
当 需 要 大 量 IO 时 要 在 云 中 获得 始终 稳定 并 且 可 重 现 的 基准 测试 结果 几 
乎 是 不 可 能 的 ， 所 以 我 们 选择 一 个 内 存 中 的 工作 负载 ， 本 质 上 可 以 衡 
量 除 了 IO 外 的 所 有 因素 。 我 们 使 用 Percona Server 5.5.16 ， 缓 冲 池 为 
4GB， 人 在 一 干 万 行 数据 上 运行 标准 SysBench 只 读 基 准 测 试 。 这 样 就 可 
以 根据 不 同 的 实例 大 小 进行 比较 。 我 们 忽略 了 高 频率 CPU 实 例 ， 因 为 
它们 实际 上 比 m2.4xlarge 实例 的 CPU 性 能 要 差 。 我们 还 引用 了 一 台 
Cisco 服 务 器 作为 参考 。Cisco 机 器 性 能 非常 高 但 有 点 老化 了 ， 使 用 的 
是 两 个 2.93GHz 的 Xeon X5670 Nehalem CPU。 每 个 CPU 有 6 个 核心 ， 每 
个 核心 上 有 两 个 硬件 线程 ， 在 操作 系统 来 看 总 共有 24 个 CPU。 图 13-1 
显示 了 测试 的 结果 。 
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图 13-1: 使 用 SysBench 对 AWS 云 中 的 MySQL 进行 只 读 基 准 测 试 


根据 工作 负载 和 硬件 来 看 ， 这 样 的 结果 并 不 奇怪 。 例 如 ， 最 大 的 
EC2 实 例 最 高 有 8 个 线程 ， 因 为 它 有 8 个 CPU 核心 。 ( 读 / 写 工作 负载 会 
花费 一 些 CPU 之 外 的 时 间 来 做 VO， 所 以 我 们 能 获得 超过 8 个 线程 的 有 
效 并 发 度 ) 。 图 13-1 可 能 会 让 你 认为 Cisco 的 优势 就 是 CPU 能 力 ， 这 也 
是 我 们 原本 认为 的 。 所 以 我 们 使 用 SysBench 的 质数 基准 测试 来 测试 原 
人 CPU 性 能 。 结 果 如 图 13-2 所 示 。 
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图 13-2: 使 用 SysBench 对 AWS 服 务 器 进行 CPU 质数 基准 测试 


Cisco 服 务 器 每 个 CPU 的 性 能 比 EC2 服 务 器 要 低 ， 奇 怪 么 ? 我 们 也 
感到 非常 奇怪 。 质 数 基准 测试 本 质 上 是 原始 CPU 指 令 ， 因 此 不 应 该 有 
非常 明显 的 虚拟 化 开销 或 者 太 多 的 内 存 交 换 。 对 于 这 样 的 结果 我 们 的 
解释 是 这 样 的 : Cisco 服 务 器 的 CPU 已 经 使 用 了 很 多 年 了 ， 并 且 比 EC2 
服务 器 的 要 慢 。 但 是 对 于 一 些 更 加 复杂 的 任务 ， 例 如 运行 数据 库 服务 
器 ， EC2 服 务 器 会 受到 虚拟 化 开销 的 影响 。 区 分 慢 CPU、 慢 内 存 访问 
以 及 虚拟 化 开销 并 不 总 是 很 容易 ， 但 在 这 个 实例 中 这 种 区 别 看 起 来 很 


明显 。 


13.6 MySQL 数据 库 即 服务 
(DBaaS) 


TED mA 28 £ RMySQLH FEES AEA MySQLAME— A 
法 。 已 经 有 越 来 越 多 的 公司 开始 将 数据 库 本 身 作 为 云 资 源 ， 称 之 为 数 
据 库 即 服务 (DBaaS， 有 时 候 也 叫 DaaS) ， 这 意味 着 你 可 以 在 一 个 地 
方 使 用 云 中 的 数据 库 ， 而 在 另外 的 地 方 运行 真正 的 服务 。 虽 然 我 们 在 


本 章 伦 很 多 时 间 解 释 了 IaaSs， 但 IaaS 市 场 正 在 快速 商品 化 ， 我 们 期 望 
未 来 重点 会 转 到 DBaaS。 在 写作 本 书 时 已 经 有 以 下 几 个 DBaaS 服 务 提 
供 商 。 


13.6.1 Amazon RDS 


我 们 发 现在 Amazon 的 关系 数据 库 (RDS) 上 进行 的 开发 比 其 他 任 
何 一 个 DBaaS 提 供 商 都 要 多 很 多 。Amazon RDS 不 仅仅 是 一 个 兼容 
MySQL 的 服务 ; 它 事 实 上 就 是 MySQL ， 所 以 能 够 完全 兼容 你 所 拥有 
的 MySQL 服务 器 4) 并 能 作为 蔡 代 品 提供 服务 。 我 们 不 是 很 确定 ， 但 
如 大 多 数 人 一 样 ， 我 们 相信 RDS 是 托管 在 使 用 EBS 卷 的 EC2 机 器 上 
一 一 Amazon 并 没有 公布 底层 的 技术 ， 但 当 你 足够 了 解 RDS 时 ， 这 看 起 
来 很 明显 就 是 MySQL、EC2 以 及 EBS。 


系统 管理 职责 完全 由 Amazon 来 承担 。 你 没有 访问 EC2 机 器 的 权 
限 ， 只 有 登入 MySQL 的 访问 备 证 。 你 可 以 创建 数据 库 、 插 入 数据 等 。 
你 并 没有 被 控制 住 ， 如 果 有 需要 ， 可 以 将 数据 导出 来 转移 到 其 他 地 
方 ， 也 可 以 创建 卷 快照 并 挂 载 到 其 他 机 器 上 。 


为 了 防止 你 检查 或 干涉 Amazon 对 服务 器 或 主机 实例 的 管理 ，RDS 
做 了 一 些 限 制 。 例 如 一 些 权 限 限 制 。 你 不 能 利用 SELECT INTO 
OUTFILE, FILEO, LOAD DATA INFILE 或 其 他 方法 来 通过 MySQL 访 
问 服务 器 的 文件 系统 。 你 不 能 做 任何 和 复制 相关 的 事情 ， 也 不 能 为 自 
己 赋予 更 高 的 权限 。Amazon 通 过 诸如 在 系统 表 上 设置 触发 器 等 方法 来 
进行 阻止 。 并 且 作 为 服务 条 款 的 一 部 分 ， 你 要 同意 不 会 试图 绕 过 这 些 
限制 。 


安装 的 MySQL 版 本 做 了 轻微 的 修改 以 阻止 用 户 干 涉 服务 器 ， 其 他 


部 分 看 起 来 和 原版 MySQL 一 样 。 我 们 对 RDS、EBS 和 EC2 做 了 基准 测 


试 ， 


并 没有 从 该 平台 上 发 现 超出 我 们 预期 的 变化 。 也 就 是 说 ， 看 起 来 


Amazon 并 没有 对 服务 器 做 任何 性 能 增强 。 


RDS 可 以 提供 一 些 比较 吸引 人 的 好 处 ， 这 取决 于 你 的 具体 情况 。 


你 可 以 将 系统 管理 甚至 许多 数据 库 管理 的 工作 留 给 Amazon。 例 
如 ， 他 们 会 为 你 进行 复制 并 保证 你 不 会 把 事情 搞 砸 。 

RDS 相 比 其 他 选择 而 言 可 能 更 便宜 ， 这 取决 于 你 的 成 本 结构 和 人 
力 资 源 。 

RDS 中 的 限制 也 许 是 件 好 事 : Amazon 拿 走 了 那 把 子弹 上 膀 的 枪 ， 
防止 你 用 它 自残 。 


但 是 ， 它 也 有 一 些 潜在 的 缺点 。 


由 于 无 法 控制 服务 器 ， 也 就 无 法 弄 清 操作 系统 中 到 底 发 生 了 什 
么 。 例 如 ， 你 无 法 衡量 IO 响应 时 间 和 CPU 利用 率 。Amazon 通 过 
男 一 个 服务 CloudWatch 提 供 了 这 一 功能 。 它 给 出 了 足够 的 指标 用 
于 排查 许多 性 能 问题 ， 但 有 时 候 你 需要 原始 数据 以 知道 到 底 发 生 
THA. 《也 无 法 使 用 类 似 FILEO 这样 的 函数 来 访问 
/proc/diskstats。 ) 

无 法 获得 完整 的 慢 查询 日 志文 件 。 你 可 以 指定 MySQL 将 慢 查 询 记 
录 到 一 个 CSV 日 志 表 中 ， 但 这 并 不 是 很 好 。 它 会 消耗 很 多 服务 器 
资源 ， 并 且 不 会 给 出 精确 的 查询 响应 时 间 。 这 使 得 很 难 去 分 析 和 
排除 SQL 故障 。 

如 果 你 希望 得 到 最 新 最 好 的 ， 或 者 一 些 性 能 上 的 增强 ， 例 如 那些 
你 可 以 从 Percona Server 上 获得 的 提升 ， 那 就 不 走运 了 ，RDS 并 不 


提供 这 些 。 

。 你 必须 依赖 Amazon 的 支持 团队 来 解决 一 些 问题 ， 而 这 些 问题 可 能 
本 来 是 你 自己 可 以 解决 的 。 例 如 ， 假 设 查询 挂 起 了 ， 或 者 服务 器 
由 于 数据 损坏 骨 溃 了 。 你 既 可 以 等 待 Amazon 来 解决 ， 也 可 以 自己 
解决 。 如 果 是 后 者 你 就 需要 把 数据 转移 到 别 的 地 方 。 你 无 法 通过 
访问 实例 本 身 来 解决 。 如 果 想 这 么 做 ， 你 不 得 不 额外 人 花 一 些 时 间 
并 支付 额外 的 资源 。 这 不 只 是 理论 上 的 推测 ; 我 们 已 经 接 到 过 许 
多 技术 支持 请 求 ， 这 些 请 求 通常 需要 系统 权限 以 进行 故障 排查 ， 
因此 对 于 RDS 用 户 而 言 是 无 法 真正 解决 的 。 


正如 我 们 所 说 ， 在 性 能 方面 ，RDS 跟 一 个 大 型 大 内 存 的 使 用 EBS 
存储 和 原始 MySQL 的 EC2 实 例 相 似 。 如 果 直 接 使 用 EC2 和 EBS 并 安装 
一 个 高 性 能 版 本 的 MySQL (例如 Percona Server) ， 你 可 以 从 AWS 云 中 
压榨 出 一 点 更 高 的 性 能 ， 但 这 不 会 是 一 个 数量 级 上 的 区 别 。 考 虑 到 这 
一 点 ， 有 理由 根据 你 的 商业 需求 而 非 性 能 需求 来 决定 是 否 使 用 RDS。 
如 果 确 实 非常 要 求 高 性 能 ， 那 你 根本 就 不 应 该 使 用 AWS 云 。 


13.6.2 ”其 他 DBaaS 解 决 方案 


Amazon RDS 并 不 是 MySQL 用 户 唯 一 可 选 的 DBaaS 解 决 方案 。 还 
有 诸如 FathomDB ( http://fathomdb.com ) 以 及 Xeround 
(http://xeround.com) 等 服务 。 但 我 们 并 没有 足够 的 第 一 手 经 验 来 介 
绍 它 们 ， 因 为 我 们 还 没有 在 这 些 服 务 上 做 任何 的 生产 部 署 。 从 关于 
FathomDB 的 一 些 有 限 的 公开 信息 来 看 ， 它 和 Amazon RDS 有 点 类 似 ， 
虽然 它 也 和 AWS 云 一 样 可 以 在 Rackspace 云 上 获得 。 在 写作 本 书 时 它 还 
处 于 内 部 测试 阶段 。 


Xeround 则 有 很 大 的 不 同 之 处 : 它 是 一 个 分 布 式 服务 器 集群 ， 前 
端 是 一 个 包含 特定 存储 引擎 的 MySQL。 它 似乎 和 原始 版 本 MySQL 有 
少量 的 不 兼容 或 不 同 之 处 。 但 它 只 是 最 近 才 发 布 正式 GA 版 本 (GA, 
generally available) ， 所 以 现在 下 定论 为 时 尚 早 。 存 储 引 警 似乎 是 用 
于 和 后 台 集 群 系统 通信 ， 这 看 起 来 有 点 和 NDB CLuster 类 似 。 它 增加 
了 自动 重 分 布 功能 ， 可 以 在 工作 负载 增加 或 减少 时 自动 地 增加 和 去 除 
节点 (动态 扩展 ) 。 


还 有 许多 其 他 的 DBaaS 服 务 ， 新 的 服务 也 在 不 断 地 推出 。 我 们 这 
里 所 写 的 任何 内 容 都 可 能 在 你 阅读 时 已 经 过 时 了 ， 所 以 我 们 将 其 留 给 
你 自己 来 研究 。 


13.7 Be 


在 云端 使 用 MySQL 至 少 有 两 种 主流 的 方法 : 在 云 服务 器 上 安装 
MySQL， 或 者 使 用 DBaaS 服 务 。MySQL 能 够 在 云 主机 上 运行 得 很 好 ， 
但 云 环 境 中 的 限制 常常 会 导致 更 早 需要 进行 数据 拆 分 。 并 且 尽 管 云 服 
务 器 看 起 来 和 你 的 物理 硬件 很 相似 ， 但 可 能 性 能 和 服务 质量 要 更 低 。 


有 时 候 似乎 有 人 会 说 “ 云 就 是 答案 ， 有 什么 问题 吗 ? ”这 是 一 个 极 
端 ， 但 那些 认为 云 是 一 个 银 弹 的 狂热 信众 ， 也 有 类 似 的 问题 。 数 据 库 
所 需要 的 四 种 基础 资源 中 的 三 种 (CPU、 内 存 和 磁盘 ) 在 云 中 明显 更 
差 并 且 / 或 者 效率 更 低 ， 会 直接 影响 到 MySQL 的 性 能 。 


但 是 对 于 很 多 工作 负载 而 言 ，MySQL 能 够 在 云 中 运行 得 很 好 。 通 
帅 来 说 ， 如 果 能 将 工作 集 加 载 到 内 存 中 ， 并 且 产 生 的 写 入 负载 不 超过 
云 能 支撑 的 VO 量 ， 那 么 就 可 以 获得 很 好 的 效果 。 通 过 严谨 的 设计 和 架 


构 ， 选 择 正确 的 MySQL 版 本 并 做 合适 的 配置 ， 可 以 使 你 的 数据 库 工作 
负载 和 容量 能 适应 云 的 长 处 。 但 是 MySQL 并 不 是 天 生 的 云 数据 库 ; 也 
就 是 说 ， 它 无 法 完全 使 用 云 计 算 理 论 上 能 提供 的 优点 ， 例 如 自动 扩 
展 。 但 是 一 些 可 替代 的 技术 (例如 Xeround) 正在 尝试 解决 这 些 缺 点 。 


我 们 已 经 讨论 了 很 多 跟 云 相 关 的 缺点 ， 这 也 许 会 给 你 一 个 我 们 反 
对 云 计算 的 印象 。 并 非 如 此 。 这 只 是 因为 我 们 只 集中 在 MySQL 上 ， 而 
不 是 讨论 云 计 算 所 有 的 优点 ， 这 可 能 跟 你 从 其 他 地 方 疝 读 到 的 非常 不 
一 样 。 我 们 在 试 着 指出 在 云端 运行 MySQL 有 哪些 不 同 ， 以 及 哪些 是 你 
需要 知道 的 。 


我 们 看 到 在 云 中 最 大 的 成 功 是 由 于 商业 原因 做 出 的 决策 。 即 使 长 
期 来 看 每 个 商业 交易 的 开销 在 云 中 会 更 高 ， 但 其 他 方面 的 因素 ， 诸 如 
增加 了 弹性 、 减 少 了 前 期 成 本 、 减 少 了 推 向 市 场 的 时 间 ， 以 及 降低 了 
风险 ， 这 可 能 更 重要 。 并 且 你 的 应 用 中 其 他 和 MySQL 无 关 的 部 分 所 获 
得 的 好 处 要 远 远大 于 (在 云端 ) 使 用 MySQL 融 来 的 浆 端 。 


(1) OK， 我 们 承认 。Amazon 网 络 服 务 是 一 个 云 。 本 章 主要 讨论 AWS。 

(2) 参阅 George Reese 所 写 的 Cloud Application Architectures (O'Reilly) o 

(3) 我 们 不 是 说 这 会 更 加 容易 或 便宜 ， 我 们 只 是 说 云 并 不 是 能 获得 这 些 好 处 的 唯一 途径 。 

(4) Scalr (http:/scalr.net) 是 一 个 流行 的 开源 服务 ， 用 于 在 云 中 进行 MySQL 复 制 自动 扩展 。 

(5) 计算 机 科学 家 喜欢 将 之 称 为 “重大 挑战 ” (non-trivial challenge) o 

(6) 在 CPU、RAM 以 及 VO 上 ， 商 用 硬件 能 够 提供 超过 MySQL 可 以 有 效 利用 的 硬件 能 力 ， 
所 以 将 云 与 云 之 外 可 获得 的 最 强硬 件 相 比 较 并 不 是 完全 公平 的 。 

(7) 直到 写 入 的 时 候 本 地 存储 才 会 被 分 配给 实例 ， 导 致 每 个 写 入 的 块 发 生 * 第 一 次 写 处 罚 ” 

(first-write penalty) o 避免 这 个 问题 的 办 法 是 使 用 dd 去 写 满 设备 。 


(8) 如 果 你 相信 http://www.xkcd.com/908/， 那 么 显然 所 有 的 云 都 有 同样 的 缺点 ， 我 们 刚刚 
已 经 提 过 。 

(9) 参阅 第 9 章 关 于 工作 集 的 定义 及 其 如 何 影响 VO 需 求 的 讨论 。 

(10) 除非 你 使 用 别 的 存储 引擎 或 者 其 他 一 些 非 标准 的 MySQL 修 改版 本 。 


第 14 章 ”应 用 层 优 化 


如 果 在 提高 MySQL 的 性 能 上 花费 太 多 时 间 ， 容 易 使 视野 局 限于 
MySQL 本 身 ， 而 忽略 了 用 户 体验 。 回 过 头 来 看 ， 也 许可 以 意识 到 ， 或 
许 MySQL 已 经 足够 优化 ， 对 于 用 户 看 到 的 响应 时 间 而 言 ， 其 所 占 的 比 
重 已 经 非常 之 小 ， 此 时 应 该 关注 下 其 他 部 分 了 。 这 是 个 很 不 错 的 观 
点 ， 尤 其 是 对 DBA 而 言 ， 这 是 很 值得 去 做 的 正确 的 事 。 但 如 果 不 是 
MySQL， 那 又 是 什么 导致 了 问题 呢 ? 使 用 第 3 章 提 到 的 技术 ， 通 过 测 
量 可 以 快速 而 准确 地 给 出 答案 。 如 果 能 顺 着 应 用 的 逻辑 过 程 从头 到 尾 
来 剖析 ， 那 么 找到 问题 的 源头 一 般 来 说 并 不 困难 。 有 时 ， 尽 管 问题 在 
MySQL 上 ， 也 很 容易 在 系统 的 另 一 部 分 得 到 解决 。 


无 论 问 题 出 在 哪里 ， 都 至 少 可 以 找到 一 个 靠 谱 的 工具 来 帮助 进行 
分 析 ， 而 且 通 单 是 免费 的 。 例 如 ， 如 果 有 JavaScript 或 者 页 面 泻 染 的 问 
题 ， 可 以 使 用 包括 Firefox 浏 览 器 的 Firebug 插 件 在 内 的 调 优 工具 ， 或 者 
使 用 Yahoo! 的 YSlow 工 具 。 我 们 在 第 3 章 提 到 了 几 个 应 用 层 工具 。 一 些 
工具 甚至 可 以 剖析 整个 堆栈 : New Relic 是 一 个 很 好 的 例子 ， 它 可 以 剖 
析 Web 应 用 的 前 端 、 应 用 以 及 后 端 。 


141 常见 问题 


我 们 在 应 用 中 反复 看 到 一 些 相同 的 问题 ， 经 常 是 因为 人 们 使 用 了 
缺乏 设计 的 现成 系统 或 者 简单 开发 的 流行 框架 。 昌 然 有 时 候 可 以 通过 
这 些 框 架 更 快 更 简单 地 构建 系统 ， 但 是 如 果 不 清楚 这 些 框 染 背 后 做 了 
什么 操作 ， 反 而 会 增加 系统 的 风险 。 


下 面 是 我 们 经 常会 磁 到 的 问题 清单 ， 通 过 这 些 过 程 可 以 激发 你 的 


思维 。 


什么 东西 在 消耗 系统 中 每 台 主机 的 CPU、 人 磁盘、 网络， 以 及 内 存 
资源 ? 这 些 值 是 否 合 理 ? 如 果 不 合理 ， 对 应 用 程序 做 基本 的 检 
查 ， 看 什么 占用 了 资源 。 配 置 文件 通常 是 解决 问题 最 简单 的 方 
式 。 例 如 ， 如 果 Apache 因 为 创建 1000 个 需要 50MB 内 存 的 工作 进 
程 而 导致 内 存 浇 出 ， 就 可 以 配置 应 用 程序 少 使 用 一 些 Apache 工 作 
进程 。 也 可 以 配置 每 个 进程 少 使 用 一 些 内 存 。 

应 用 真 的 需要 所 有 获取 到 的 数据 吗 ? 获取 1000 行 数据 但 只 显示 10 
行 ， 而 丢弃 剩 下 的 990 行 ， 这 是 常见 的 错误 。 (如 果 应 用 程序 缓存 
了 另外 的 990 行 备用 ， 这 也 许 是 有 意 的 优化 。) 

应 用 在 处 理 本 应 由 数据 库 处 理 的 事情 吗 ， 或 者 反 过 来 ? 这 里 有 两 
个 例子 ， 从 表 中 获取 所 有 的 行 在 应 用 中 进行 统计 计数 ， 或 者 在 数 
据 库 中 执行 复杂 的 字符 串 操 作 。 数 据 库 擅长 统计 计数 ， 而 应 用 擅 
长 正则 表达 式 。 要 善于 使 用 正确 的 工具 来 完成 任务 。 

应 用 执行 了 太 多 的 查询 ? ORM 宣 称 的 把 程序 员 从 写 SQL 中 解放 出 
来 的 语句 接口 通常 是 罪魁 祸首 。 数 据 库 服务 器 为 从 多 个 表 匹 配 数 
据 做 了 很 多 优化 ， 因 此 应 用 程序 完全 可 以 删 掉 多 余 的 主 套 循环 ， 
而 使 用 数据 库 的 关联 来 代替 。 

应 用 执行 的 查询 太 少 了 ? 好 吧 ， 上 面 只 说 了 执行 太 多 SQL 可 能 

为 问题 。 但 是 ， 有 时候 让 应 用 来 做 “手工 关联 ”以 及 类 似 的 操作 也 
可 能 是 个 好 主意 。 因 为 它们 允许 更 细 的 粒度 控制 和 更 有 效 的 使 用 
缓存 ， 以 及 更 少 的 锁 争 用 ， 甚 至 有 时 应 用 代码 里 模拟 的 哈 希 关联 
会 更 快 (MySQL 的 语 套 循环 的 关联 方法 并 不 总 是 高 效 的 ) o 

应 用 创建 了 没 必 要 的 MySQL 连 接 吗 ? 如 果 可 以 从 缓存 中 获得 数 
据 ， 就 不 要 再 连接 数据 库 。 


应 用 对 一 个 MySQL 实 例 创建 连接 的 次 数 太 多 了 吗 (也 许 因 为 应 用 
的 不 同 部 分 打开 了 它们 自己 的 连接 ) ? 通常 来 说 更 好 的 办 法 是 重 
用 相同 的 连接 。 

应 用 做 了 太 多 的 “垃圾 ”查询 ? 一 个 常见 的 例子 是 发 送 查 询 前 先 发 
送 一 个 ping 命 令 看 数据 库 是 否 存活 ， 或 者 每 次 执行 SQL 前 选择 需 
要 的 数据 库 。 总 是 连接 到 一 个 特定 的 数据 库 并 使 用 完整 的 表 名 也 
许 是 更 好 的 方法 。 〈 这 也 使 得 从 日 志 或 者 通过 SHOW 
PROCESSLIST 看 SQL 更 容易 了 ， 因 为 执行 日 志 中 的 SQL 语句 的 时 
候 不 用 再 切换 到 特定 的 数据 库 ， 数 据 库 名 已 经 包含 在 SQL 语句 中 
了 。) “预备 (Preparing) ”连接 是 另 一 个 常见 问题 。Java 驱 动 在 
预备 期 间 会 做 大 量 的 操作 ， 其 中 大 部 分 可 以 禁用 。 另 一 个 常见 的 
垃圾 查询 是 SET NAMES UTF8， 这 是 一 个 错误 的 方法 〈 它 不 会 改 
变 客 户 端 库 的 字符 集 ， 只 会 影响 服务 器 的 设置 ) 。 如 果 应 用 在 大 
部 分 情况 使 用 特定 的 字符 集 工 作 ， 可 以 修改 配置 文件 把 特定 字符 
集 设 为 默认 值 ， 而 不 需要 在 每 次 执行 时 去 做 修改 。 

应 用 使 用 了 连接 池 吗 ?这 既 可 能 是 好 事 ， 也 可 能 是 坏事 。 连 接 池 
可 以 帮助 限制 总 的 连接 数 ， 有 大 量 SQL 执 行 的 时 候 效 果 不 错 
(Ajax 应 用 是 一 个 典型 的 例子 ) 。 然 而 ， 连 接 池 也 可 能 有 一 些 副 
作用 ， 比 如 说 应 用 的 事务 、 临 时 表 、 连 接 相 关 的 配置 项 ， 以 及 用 
户 自 定义 变量 之 间 相 互 干扰 等 。 

应 用 是 否 使 用 长 连接 ? 这 可 能 导致 太 多 连接 。 通 常 来 说 长 连接 不 
是 个 好 主意 ， 除 非 网 络 环境 很 慢 导 致 创建 连接 的 开销 很 大 ， 或 者 
连接 只 被 一 或 两 个 很 快 的 SQL 使 用 ， 或 者 连接 频率 很 高 导致 客户 
端 本 地 端口 不 够 用 。 如 果 MySQL 的 配置 正确 ， 也 许 就 不 需要 长 连 
接 了 。 上 比如 使 用 skip-name-resolve 来 避免 DNS 反 向 查询 ， 确 保 
thread_cache 足 够 大 ， 并 且 增 加 back_log。 可 以 参考 第 8 章 和 第 9 草 
得 到 更 多 的 细节 。 


。 应 用 是 否 在 不 使 用 的 时 候 还 保持 连接 打开 ? 如 果 是 这 样 ， 尤 其 是 
连接 到 很 多 服务 器 时 ， 可 能 会 过 多 地 消耗 其 他 进程 所 需要 的 连 
接 。 例 如 ， 假 设 你 连接 到 10 个 MySQL 服 务 器 。 从 一 个 Apache 进 程 
中 获取 10 个 连接 不 是 问题 ， 但 是 任意 时 刻 其 中 只 有 1 个 在 真正 工 
作 。 其 他 9 个 大 部 分 时 间 都 处 于 Sleep 状态 。 如 果 其 中 一 台 服 务 器 
变 慢 了 ， 或 者 有 一 个 很 长 的 网 络 请 求 ， 其 他 的 服务 器 就 可 能 因为 
连接 数 过 多 受到 影响 。 解 决 方案 是 控制 应 用 怎么 使 用 连接 。 例 
如 ， 可 以 将 操作 批量 地 依次 发 送 到 每 个 MySQL 实 例 ， 并 且 在 下 一 
次 执行 SQL 前 关闭 每 个 连接 。 如 果 执 行 的 是 比较 消耗 时 间 的 操 
作 ， 例 如 调用 Web 服务 接口 ， 甚 至 可 以 先 关 闭 MySQL 连 接 ， 执 行 
耗 时 的 工作 ， 再 重新 打开 MySQL 连 接 继续 在 数据 库 上 工作 。 


长 连接 和 连接 闻 的 区 别 可 能 使 人 困惑 。 长 连接 可 能 跟 连 接 闻 有 同 
样 的 副作用 ， 因 为 重用 的 连接 在 这 两 种 情况 下 都 是 有 状态 的 。 


然而 ， 连 接 池 通常 不 会 导致 服务 器 连接 过 多 ， 因 为 它们 会 在 进程 
间 排 队 和 共享 连接 。 另 一 方面 ， 长 连接 是 在 每 个 进程 基础 上 创建 ， 不 
会 在 进程 间 共 享 。 


连接 池 也 比 共享 连接 的 方式 对 连接 策略 有 更 强 的 控制 力 。 连 接 池 
可 以 配置 为 自动 扩展 ， 但 是 通常 的 实践 经 验 是 ， 当 遇 到 连接 闻 完 全 占 
满 时 ， 应 该 将 连接 请 求 进行 排队 而 不 是 扩展 连接 池 。 这 样 做 可 以 在 应 
用 服务 器 上 进行 排队 等 待 ， 而 不 是 将 压力 传递 到 MySQL 数 据 库 服务 器 
上 导致 连接 数 太 多 而 过 载 。 

有 很 多 方法 可 以 使 得 查询 和 连接 更 快 ， 但 是 一 般 的 规则 是 ， 如 果 
能 够 直接 避免 进 行 查询 和 连接 ， 肯 定 比 努力 提升 查询 和 连接 的 性 能 能 
获得 更 好 的 优化 结果 。 


14.2 Web 服务 器 问题 


Apache 是 最 流行 的 Web 应 用 服务 器 软件 。 它 在 许多 情况 下 都 运行 
良好 ， 但 如 果 使 用 不 当 也 会 消耗 大 量 的 资源 。 最 常见 的 问题 是 保持 它 
的 进程 的 存活 (alive) 时 间 过 长 ， 或 者 在 各 种 不 同 的 用 途 下 混合 使 
用 ， 而 不 是 分 别 对 不 同类 型 的 工作 进行 优化 。 


Apache 通 单 是 通过 prefork 配 置 来 使 用 mod php 、mod_perl 和 
mod_python 模块 的 。prefork 模 式 会 为 每 个 请 求 预 分 配 进 程 。 因 为 
PHP、Perl 和 Python 脚本 是 可 以 定制 化 的 ， 每 个 进程 使 用 50MB 或 
100MB 内 存 的 情况 并 不 少见 。 当 一 个 请 求 完 成 后 ， 会 释放 大 部 分 内 存 
给 操作 系统 ， 但 并 不 是 全 部 。Apache 会 保持 进程 处 于 打开 状态 以 备 后 
来 的 请 求 重 用 。 这 意味 着 ， 如 果 下 一 个 请 求 是 请 求 静态 文件 ， 比 如 一 
个 CSS 文 件 或 者 一 张 图 片 ， 就 会 出 现 用 一 个 占用 内 存 很 多 的 进程 来 为 
一 个 很 小 的 请 求 服 务 的 情况 。 这 就 是 使 用 Apache 作 为 通用 Web 服 务 器 
很 危险 的 原因 。 它 的 确 是 为 通用 目的 而 设计 的 ， 但 如 果 能 够 有 针对 性 
地 使 用 其 长 处 ， 会 获得 更 好 的 性 能 。 


另 一 个 主要 的 问题 是 ， 如 果 开 局 了 Keep-Alive 设 置 ， 进 程 可 能 很 
长 时 间 处 于 繁忙 状态 。 当 然 ， 即 使 没有 开启 Keep-Alive， 某 些 进程 也 
可 能 存活 很 久 ,“ 填 鸭 式 ”地 将 内 容 传 给 客户 端 可 能 导致 获取 数据 很 慢 
D, 


人们 单 犯 的 另外 一 个 错误 ， 融 是 保持 那些 Apache 默 认 开 局 的 模块 
不 动 。 


最 好 能 够 精简 Apache 的 模块 ， 移 除 掉 那 些 不 需要 的 。 这 很 简单 : 
只 需要 检查 Apache 的 配置 文件 ， 注 释 掉 不 想 要 的 模块 ， 然 后 重启 
Apache 就 行 。 也 可 以 在 php.ini 文 件 中 删除 不 使 用 的 PHP 模 块 。 


最 差 情 况 是 ， 如 果 用 一 个 通用 目的 的 Apache 配 置 直接 用 于 Web 服 
务 ， 最 后 很 可 能 产生 很 多 重量 级 的 Apache 进 程 。 这 将 浪费 Web 服 务 器 
的 资源 。 它 们 还 可 能 保持 大 量 MySQL 连 接 ， 浪 费 MySQL 的 资源 。 下 
面 是 一 些 可 以 降低 服务 器 负载 的 方法 (9。 


不 要 使 用 Apache 来 做 静态 内 容 服 务 ， 或 者 至 少 和 动态 服务 使 用 不 
同 的 Apache 实 例 。 流 行 的 蔡 代 品 有 Nginx (http:/www.nginx.com) 和 
lighttpd (http:/www.lighttpd.net) o 


。 使 用 缓存 代理 服务 器 ， 比 如 Squid 或 者 Varnish， 防 止 所 有 的 请 求 都 
到 达 Web 服 务 器 。 这 个 层面 即使 不 能 缓存 所 有 页 面 ， 也 可 以 缓存 
大 部 分 页 面 ， 并 且 使 用 像 ESI (Edge Side Includes ， 参 见 
http://www.esi.org) 这 样 的 技术 来 将 部 分 页 面 中 的 小 块 的 动态 内 容 
BRA SERRA BA o 

对 动态 和 静态 资源 都 设置 过 期 策略 。 可 以 使 用 Squid 这 样 的 缓存 代 
理 显 式 地 使 内 容 过 期 。 维 基 百 科 就 使 用 了 这 个 技术 来 清理 缓存 中 
变更 过 的 文章 。 


有 时 也 许 还 需要 修改 应 用 程序 ， 以 便 得 到 更 长 的 过 期 时 间 。 例 
如 ， 如 果 你 告诉 浏览 器 永久 缓存 CSS 和 JavaScript 文 件 ， 然 后 对 站 点 的 
HTML 做 了 一 个 修改 ， 这 个 页 面 泻 染 将 会 出 问题 。 这 种 情况 可 以 为 广 
件 的 每 个 版 本 设 定 唯一 的 文件 名 。 例 如 ， 你 可 以 定制 网 站 的 发 布 脚 
本 ， 复 制 CSS 文 件 到 /css/123_frontpage.css， 这 里 的 123 就 是 版 本 管理 器 
中 的 版 本 号 。 对 图 片 文件 的 文件 名 也 可 以 这 么 做 永 不 重用 文件 


名 ， 


题 。 


这 样 页 面 就 不 会 在 升级 时 出 问题 ， 浏 览 器 缓存 多 久 的 文件 都 没 问 


不 要 让 Apache 填 鸭 式 地 服务 客户 端 ， 这 不 仅仅 会 导致 慢 ， 也 会 导 
致 DDoS 攻击 变 得 简单 。 硬 件 负载 均衡 器 通常 可 以 做 缓冲 ， 所 以 
Apache 可 以 快速 地 完成 ， 让 负载 均衡 器 通过 缓存 响应 客户 端的 请 
求 ， 也 可 以 在 应 用 服务 器 前 端 使 用 Nginx、Squid 或 者 事件 驱动 模 
式 下 的 Apache。 

打开 gzip 压 缩 。 对 于 现在 的 CPU 而 言 这 样 做 的 代价 很 小 ， 但 是 可 
以 节省 大 部 分 流量 。 如 果 想 节省 CPU 周期 ， 可 以 使 用 缓存 ， 或 者 
诸如 Nginx 这 样 的 轻 量 级 服务 器 保存 压缩 过 的 页 面 版 本 。 

不 要 为 用 于 长 距离 连接 的 Apache 配 置 启用 Keep-Alive 选 项 ， 因 为 
这 会 使 得 重量 级 的 Apache 进 程 存活 很 长 时 间 。 可 以 用 服务 器 端的 
代理 来 处 理 保 持 连接 的 工作 ， 从 而 防止 Apache 被 客户 端 拖 垮 。 配 
置 Apache 到 代理 之 间 的 连接 使 用 Keep-Alive 是 可 以 的 ， 因 为 代理 
只 会 使 用 很 少 的 Apache 连 接 去 获取 数据 。 图 14-1 展 示 了 这 个 区 


别 。 


一 >‘. 
Q , Keep-Alive 和 连接 一 
客户 Apache 工作 进程 
wo. 
et 二 = 
SS 全 ___ keep Alive 连接 J Keep-Alive 连接 
t @ 
客户 


图 14-1: 代理 可 以 使 Apache 不 被 长 连接 拖 垮 ， 产 生 更 少 的 Apache 工 作 进程 。 


这 些 策 略 可 以 使 Apache 进 程 存活 时 间 变 得 很 得， 所 以 会 有 比 实际 
需求 更 多 的 进程 。 无 论 如 何 ， 有 些 操作 依然 可 能 导致 Apache 进 程 存 活 
时 间 太 长 ， 并 且 占 用 大 量 资源 。 举 个 例子 ， 一 个 请 求 查询 延 时 非常 大 
的 外 部 资源 ， 例 如 远程 的 Web 服 务 ， 就 会 出 现 Apache 进 程 存活 时 间 太 
长 的 问题 。 这 种 问题 通常 是 无 解 的 。 


14.2.1 “寻找 最 优 并 发 度 


每 个 Web 服 务 器 都 有 一 个 最 佳 并 发 度 一 一 就 是 说 ， 让 进程 处 理 请 
求 尽 可 能 快 ， 并 且 不 超过 系统 负载 的 最 优 的 并 发 连接 数 。 这 就 是 我 们 
在 第 11 章 说 的 最 大 系统 容量 。 进 行 一 个 简单 的 测量 和 建 模 ， 或 者 只 是 
反复 试验 ， 就 可 以 找到 这 个 “神奇 的 数 "， 为 此 和 花 一 些 时 间 是 值得 的 。 


对 于 大 流量 的 网 站 ，Web 服 务 器 同一 时 刻 处 理 上 千 个 连接 是 很 党 
见 的 。 然 而 ， 只 有 一 小 部 分 连接 需要 进程 实时 处 理 。 其 他 的 可 能 是 读 
请 求 ， 处 理 文件 上 传 ， 填 网 式 服务 内 容 ， 或 者 只 是 等 待 客户 端的 下 一 
步 请 求 。 


随 着 并 发 的 增加 ， 服 务 器 会 逐渐 到 达 它 的 最 大 吞吐 量 。 在 这 之 
后 ， 吞 吐 量 通常 开始 降低 。 更 重要 的 是 ， 响 应 时 间 (aR) 也 会 因为 
排队 而 开始 增加 。 


为 什么 会 这 样 呢 ? 试想 ， 如 果 服 务 器 只 有 一 个 CPU， 同 时 接收 到 
了 100 个 请 求 ， 会 发 生 什么 事情 呢 ? 假设 CPU 每 秒 能 够 处 理 一 个 请 求 。 
即便 理想 情况 下 操作 系统 没有 调度 的 开销 ， 也 没有 上 下 文 切 换 的 成 
本 ， 那 100 个 请 求 也 需要 CPU 花费 整整 100s 才 能 完成 。 


处 理 请 求 的 最 好 方法 是 什么 ”可 以 将 其 一 个 个 地 排 到 队列 中 ， 也 
可 以 并 行 地 执行 并 在 不 同 请 求 之 间 切 换 ， 每 次 切换 都 给 每 个 请 求 相 同 
的 服务 时 间 。 在 这 两 种 情况 下 ， 吞 吐 量 都 是 每 秒 处 理 一 个 请 求 。 然 
而 ， 如 果 使 用 队列 〈 并 发 =1) ， 平 均 延 时 是 50s， 如 果 是 并 发 执行 (并 
发 =100) 则 是 100s。 在 实践 中 ， 并 发 执行 会 使 平均 延 时 更 高 ， 主 要 是 
因为 上 下 文 切换 的 代价 。 


对 于 CPU 密集 型 工作 负载 ， 最 佳 并 发 度 等 于 CPU 数量 (或 者 CPU 
核 数 ) 。 然 而 ， 进 程 并 不 总 是 处 于 可 运行 状态 的 ， 因 为 会 有 一 些 阻塞 
式 请 求 ， 例 如 WO、 数 据 库 查 询 ， 以 及 网 络 请 求 。 因 此 ， 最 佳 并 发 度 通 


常会 比 CPU 数 量 高 一 些 。 


可 以 预测 最 优 并 发 度 ， 但 是 这 需要 精确 的 分 析 。 尝 试 不 同 的 并 发 
值 ， 看 看 在 不 增加 响应 时 间 的 情况 下 的 最 大 吞吐 量 是 多 少 ， 或 者 测量 
真正 的 工作 负载 并 且 进 行 分 析 ， 这 通常 更 容易 。Percona Toolkit 的 pt- 
tcp-model 工 具 可 以 帮助 从 TCP 转 储 中 测量 和 建 模 分 析 系 统 的 可 扩展 性 
和 性 能 特性 。 


14.3 BF 


缓存 对 高 负载 应 用 来 说 是 至 关 重 要 的 。 一 个 典型 的 web 应 用 程序 
会 提供 大 量 的 内 容 ， 直 接生 成 这 些 内 容 的 成 本 比 采 用 缓存 要 高 得 多 
(包含 检查 和 缓存 超时 的 开销 ) ， 所 以 采用 缓存 通常 可 以 获得 数量 级 
的 性 能 提升 。 诀 窍 是 找到 正确 的 粒度 和 缓存 过 期 策略 组 合 。 另 外 也 需 
要 决定 哪些 内 容 适 合 缓存 ， 缓 存在 哪里 。 


典型 的 高 负载 应 用 会 有 很 多 层 缓存 。 缓 存 并 不 仅仅 发 生 在 服务 器 
上 ， 而 是 在 每 一 个 环节 ， 甚 至 包括 用 户 的 web 浏览 器 〈 这 就 是 内 容 过 
期 头 的 用 处 ) 。 通 常 ， 缓 存 越 接近 客户 端 ， 就 越 节省 资源 并 且 效 率 更 
高 。 从 浏览 器 缓存 提供 一 张 图 片 比 从 Web 服 务 器 的 内 存 获 取 快 得 多 ， 
而 从 服务 器 的 内 存 读 取 又 比 从 服务 器 的 磁盘 上 读 取 好 得 多 。 每 种 类 型 
的 缓存 有 其 不 一 样 的 特点 ， 例 如 容量 和 延 时 ;在 后 面 的 章节 我 们 会 解 
释 其 中 的 一 部 分 。 


可 以 把 缓存 分 成 两 大 类 : 被 动 缓存 和 主动 缓存 。 被 动 缓存 除了 存 
储 和 返回 数据 外 不 做 任何 事情 。 当 从 被 动 缓存 请 求 一 些 内 容 时 ， 要 么 
可 以 得 到 结果 ， 要 么 得 到 “结果 不 存在 ”。 被 动 缓存 的 一 个 典型 例子 是 


memcachedo 


相 比 之 下 ， 主 动 缓存 会 在 访问 未 命中 时 做 一 些 额外 的 工作 。 通 常 
会 将 请 求 转发 送 给 应 用 的 其 他 部 分 来 生成 请 求 结 果 ， 然 后 存储 该 结果 
并 返回 给 应 用 。Squid 缓 存 代 理 服务 器 就 是 一 个 主动 缓存 。 


设计 应 用 程序 时 ， 通 单 希 望 缓存 是 主动 的 《也 可 以 叫做 透明 
AY) ， 因 为 它们 对 应 用 隐藏 了 检查 一 生成 一 存储 这 个 逻辑 过 程 。 也 可 
以 在 被 动 缓存 的 前 面 构建 一 个 主动 缓存 。 


14.3.1 ”应 用 层 以 下 的 缓存 


MySQL 服 务 器 有 自己 的 内 部 缓存 ， 但 也 可 以 构建 你 自己 的 缓存 和 
汇总 表 。 可 以 对 缓存 表 量 身 定制 ， 使 它们 最 有 效 地 过 滤 、 排 序 、 与 其 
他 表 关 联 、 计 数 ， 或 者 用 于 其 他 用 途 。 缓 存 表 也 比 许多 应 用 层 缓 存 更 
持久 ， 因 为 在 服务 器 重启 后 它们 还 存在 。 


在 第 4 章 和 第 5 章 已 经 介绍 了 关于 缓存 策略 的 内 容 ， 所 以 在 这 一 
章 ， 我 们 主要 关注 应 用 层 以 及 更 高 层次 的 缓存 。 


缓存 并 不 总 是 有 用 


必须 确认 缓存 真 的 可 以 提升 性 能 ， 因 为 有 时 缓存 可 能 没有 任何 
帮助 。 例 如 ， 在 实践 中 发 现 从 Nginx 的 内 存 中 获取 内 容 比 从 缓存 代 
理 中 获取 要 快 。 如 果 代 理 的 缓存 在 磁盘 上 则 尤其 如 此 。 


原因 很 简单 : 缓存 自身 也 有 一 些 开 销 。 比 如 检查 缓存 是 否 存 
在 ， 如 果 命中 则 直接 从 缓存 中 返回 数据 。 另 外 将 缓存 对 象 失效 或 者 
写 入 新 的 缓存 对 象 都 会 有 开销 。 缓 存 只 在 这 些 开 销 比 没有 缓存 的 情 
况 下 生成 和 提供 数据 的 开销 少时 才 有 用 。 


如 果 知 道 所 有 这 些 操作 的 开销 ， 就 可 以 计算 出 缓存 能 提供 多 少 
帮助 。 没 有 缓存 时 的 开销 就 是 为 每 个 请 求生 成 数据 的 开销 。 有 缓存 
时 的 开销 是 检查 缓存 的 开销 加 上 缓存 不 命中 的 概率 乘 以 生成 数据 的 
开销 ， 再 加 上 缓存 命中 的 概率 乘 以 缓存 提供 数据 的 开销 。 


如 果 有 缓存 时 的 开销 比 没 有 时 要 低 ， 则 说 明 缓 存 可 能 有 用 ， 但 
依然 不 能 保证 。 还 要 记 住 ， 就 像 从 Nginx 的 内 存 中 获取 数据 比 从 代 
理 在 磁盘 中 的 缓存 获取 要 好 一 样 ， 有 些 缓存 的 开销 比 另外 一 些 要 
低 。 


14.3.2 ”应 用 层 缓 存 


应 用 层 缓存 通常 在 同一 台 机 器 的 内 存 中 存储 数据 ， 或 者 通过 网 络 
存在 另 一 台 机 器 的 内 存 中 。 


因为 应 用 可 以 缓存 部 分 计算 结果 ， 所 以 应 用 层 缓存 可 能 比 更 低层 
次 的 缓存 更 有 效 。 因 此 ， 应 用 层 缓 存 可 以 节省 两 方面 的 工作 : 获取 数 
据 以 及 基于 这 些 数据 进行 计算 。 一 个 很 好 的 例子 是 HTML 文 本 块 。 应 
用 程序 可 以 生成 例如 头条 新 闻 的 标题 这 样 的 HTML 片 段 ， 并 且 做 好 缓 
存 。 后 续 的 页 面 视图 就 可 以 简单 地 插入 这 个 缓存 过 的 文本 。 一 般 来 
说 ， 在 缓存 数据 前 对 数据 做 的 处 理 越 多 ， 缓 冲 命中 节省 的 工作 就 越 


多 。 


但 应 用 层 缓存 也 有 缺点 ， 那 就 是 缓存 命中 率 可 能 更 低 ， 并 且 可 能 
使 用 较 多 的 内 存 。 假 设 需要 50 个 不 同 版 本 的 头条 新 闻 标 题 ， 以 使 不 同 
地 区 生活 的 用 户 看 到 不 同 的 内 容 ， 那 就 需要 足够 的 内 存 去 存储 全 部 50 
个 版 本 ， 任 何 给 定 版 本 的 标题 命中 次 数 都 会 更 少 ， 并 且 失 效 策 略 也 会 
更 加 复杂 。 


应 用 缓存 有 许多 种 ， 下 面 是 其 中 的 一 小 部 分 。 
本 地 缓存 


这 种 缓存 通常 很 小 ， 只 在 进程 处 理 请 求 期 间 存 在 于 进程 内 存 
中 。 本 地 缓存 可 以 有 效 地 避免 对 某 些 资源 的 重复 请 求 。 这 种 类 型 
的 缓存 技术 并 不 复杂 : 通常 只 是 应 用 代码 中 的 一 个 变量 或 者 哈 希 
表 。 例 如 ， 假 设 需要 显示 一 个 用 户 名 ， 而 且 已 经 知道 其 ID ， 就 可 
以 创建 一 个 get_name_from_id0 函数 并 且 在 其 中 增加 缓存 ， 像 下 面 
这 样 。 


<?php 


function get_name_from_id($user_id) { 


static $name; // static makes the variable persist 
if ( !$name ) { 
// Fetch name from database 


} 


return $name; 


如 果 使 用 的 是 Perl， 那 么 Memoize 模 块 是 函数 调用 结果 标准 的 缓存 
方式 。 


use Memoize qw(memoize); 


memoize 'get_name_from_id'; 


sub get_name_from_id { 


my ( $user_id ) = @; 
my $name = # get name from database 


return $name; 


这 些 技巧 都 很 简单 ， 但 却 可 以 为 应 用 程序 节省 很 多 工作 。 


本 地 共享 内 存 缓存 


这 种 缓存 一 般 是 中 等 大 小 ( 几 个 GB) ， 人 快速 ， 难 以 在 多 台 机 
器 间 同 步 。 它 们 对 小 型 的 半 静 态 位 数据 比较 合适 。 例 如 每 个 州 的 
城市 列表 ， 分 片 数 据 存 储 的 分 区 阔 数 (映射 表 ) ， 或 者 使 用 存活 
时 间 (TTL) 策略 进行 失效 的 数据 等 。 共 享 内 存 最 大 的 好 处 是 访 
问 非 常 快 一 一 通 剃 比 其 他 任何 远程 缓存 访问 都 要 快 不 少 。 


分 布 式 内 存 缓存 


最 瘦 见 的 分 布 式 内 存 缓存 的 例子 是 memcached。 分 布 式 缓存 
比 本 地 共享 内 存 缓存 要 大 得 多 ， 增 长 也 容易 。 缓 存 中 创建 的 数据 
的 每 一 个 比特 都 只 有 一 份 副 本 ， 这 样 既 不 会 浪费 内 存 ， 也 不 会 因 
为 相同 的 数据 存在 不 同 的 地 方 而 引入 一 致 性 问题 。 分 布 式 内 存 非 
常 适 合 存储 共享 对 象 ， 例 如 用 户 资料 、 评 论 ， 以 及 HTML 片段 。 


分 布 式 缓存 比 本 地 共享 缓存 的 延 时 要 高 得 多 ， 所 以 最 高 效 的 
使 用 方法 是 批量 进行 多 个 获取 操作 (例如 ， 在 一 次 循环 中 获取 多 
THR) 。 分 布 式 缓存 还 需要 考虑 怎么 增加 更 多 的 节点 ， 以 及 某 
个 节点 崩溃 了 怎么 处 理 。 对 于 这 两 个 场景 ， 应 用 程序 必须 决定 在 
五 氮 间 怎么 分 布 或 重 分 布 缓存 对 象 。 当 缓存 集群 增加 或 减少 一 台 
服务 器 时 ， 一 致 性 缓存 对 避 多 性 能 问题 而 言 是 非常 重要 的 。 在 下 
面 这 个 网 站 有 一 个 为 memcached 做 的 一 致 性 缓存 库 : 


http:/www.audioscrobbler.net/development/ketama/o 


磁盘 上 的 缓存 


磁盘 是 很 慢 的 ， 所 以 缓存 在 磁盘 上 的 最 好 是 持久 化 对 象 ， 很 
难 全 部 装 进 内 存 的 对 象 ， 或 者 静态 内 容 (例如 预 处 理 的 自 定义 图 
片 ) 。 


对 于 磁盘 上 的 缓存 和 Web 服 务 器 ， 一 个 非常 有 用 的 技巧 是 使 
用 404 错 误 处 理 机 制 来 捕捉 缓存 未 命中 的 情况 。 假 设 Web 应 用 要 在 
头 部 展示 一 张 基 于 用 户 名 (“欢迎 回来 ， John!”) 的 自 定义 图 片 ， 
并 且 通 过 /images/welcomebacKk/iohn.jpg 这 样 的 路 径 引 用 此 图 片 。 如 
果 图 片 不 存在 ， 将 会 导致 一 个 404 错 误 ， 并 且 触 发 上 述 错误 处 理 。 
这 个 错误 处 理 可 以 生成 图 片 ， 在 磁盘 上 存储 它 ， 然 后 发 出 一 个 重 
定向 或 者 将 该 图 片 传 回 浏 览 器 。 后 续 的 请 求 只 需要 从 文件 中 直接 
返回 图 片 。 


有 很 多 类 型 的 内 容 可 以 使 用 这 种 技巧 。 例 如 ， 不 用 再 将 最 近 
的 标题 作为 HTML 部 分 进行 缓存 ， 可 以 在 JavaScript 文 件 中 存储 这 
些 东 西 ， 然 后 在 网 页 头 中 引用 这 个 文件 : latest_headlines.js。 


缓存 失效 很 简单 : 删除 文件 即 可 。 可 以 通过 执行 一 个 删除 N 
分 钟 前 所 创建 的 文件 的 定时 任务 ， 来 实现 TIL 失 效 。 如 果 想 要 限 
制 缓存 大 小 ， 也 可 以 通过 按 最 近 访 问 时 间 排 序 来 删除 文件 ， 从 而 
实现 最 近 最 少 使 用 (LRU) 失效 算法 。 


如 果 失 效 策 略 是 基于 最 近 访 问 时 间 ， 则 必须 在 文件 系统 挂 载 
参数 中 打开 访问 时 间 记 录 。 (忽略 noatime 选 项 即 可 。) 如 果 这 么 
做 ， 应 该 使 用 内 存 文件 系统 来 避免 大 量 磁盘 操作 。 


14.3.3 ”缓存 控制 策略 


缓存 也 有 像 反 沁 式 化 数据 库 设计 一 样 的 问题 : 重复 数据 ， 也 融 是 
说 有 多 个 地 方 需要 更 新 数据 ， 所 以 需要 想 办 法 避免 读 到 脏 数据 。 下 面 
是 一 些 最 常见 的 缓存 控制 策略 。 


TTL (time to live， 存 活 时 间 ) 


缓存 对 象 和 存储 时 设置 一 个 过 期 时 间 ; 可 以 通过 清理 进程 在 达 
到 过 期 时 间 后 删 掉 对 象 ， 或 者 先 留 着 直到 下 次 访问 时 再 清理 OS 
理 后 需要 使 用 新 的 版 本 替换 ) 。 对 于 数据 很 少 变更 或 者 没有 新 数 
据 的 情况 ， 这 是 最 好 的 失效 策略 。 


显 式 失效 


如 果 不 能 接受 脏 数 据 ， 那 么 进程 在 更 新 原始 数据 时 需要 同时 
使 缓存 失效 。 这 种 策略 有 两 个 变种 : 写 一 失效 和 写 一 更 新 。 写 一 
失效 策略 很 简单 : 只 需要 标记 缓存 数据 已 经 过 期 《是否 清理 缓存 
数据 是 可 选 的 ) 。 写 一 更 新 策略 需要 多 做 一 些 工 作 ， 因 为 在 更 新 
数据 时 就 需要 替换 掉 缓 存 项 。 无 论 如 何 ， 这 都 是 非常 有 益 的 ， 特 
别 是 当 生 成 缓存 数据 代价 很 昂贵 时 ( 写 线程 也 许 已 经 做 了 ) 。 如 
果 更 新 缓存 数据 ， 后 续 的 请 求 将 不 再 需要 等 待 应 用 来 生成 。 如 果 
在 后 台 做 失效 处 理 ， 例 如 基于 TIL 的 失效 ， 就 可 以 在 一 个 从 用 户 
请 求 完 全 分 离 出 来 的 进程 中 生成 失效 数据 的 新 版 本 。 


在 更 改 旧 数据 时 ， 为 了 避免 要 同时 失效 派生 出 来 的 脏 数据 ， 
可 以 在 缓存 中 保存 一 些 信息 ， 当 从 缓存 中 读数 据 时 可 以 利用 这 些 
言 息 判 断 数据 是 否 已 经 失效 。 和 显 式 失效 策略 相 比 ， 这 样 做 有 很 
大 的 优势 : 成 本 固定 且 可 以 分 散在 不 同时 间 内 。 假 设 要 失效 一 个 
有 一 自 万 缓存 对 象 依赖 的 对 象 ， 如 果 采 用 写 时 失效 ， 需 要 一 次 在 
缓存 中 失效 一 自 万 个 对 象 ， 即 使 有 高 效 的 方法 来 找到 这 些 对 象 ， 
也 可 能 需要 很 长 的 时 间 才 能 完成 。 如 果 采 用 读 时 失效 ， 写 操作 可 


以 立即 完成 ， 但 后 续 这 一 百 万 对 象 的 读 操作 可 能 会 有 略微 的 延 
述 。 这 样 就 把 失效 一 百 万 对 象 的 开销 分 散 了 ， 并 且 可 以 帮助 避免 
出 现 负 载 冲 高 和 延迟 增 大 的 峰值 。 


一 种 最 简单 的 读 时 失效 的 办 法 是 采用 对 象 版 本 控制 。 使 用 这 种 方 
法 ， 在 缓存 中 存储 一 个 对 象 时 ， 也 可 以 存储 对 象 所 依赖 的 数据 的 当前 
版 本 号 或 者 时 间 戳 。 例 如 ， 假 设 要 缓存 用 户 博 客 日 志 的 统计 信息 ， 包 
括 用 户 发 表 的 博客 数 。 当 缓存 blog_stats 对 象 时 ， 也 可 以 同时 存储 用 户 
的 当前 版 本 号 ， 因 为 该 统计 信息 是 依赖 于 用 户 的 。 


不 管 什么 时 候 更 新 依赖 于 用 户 的 数据 ， 都 需要 更 新 用 户 的 版 本 
号 ， 假 设 用 户 的 版 本 号 初始 为 0， 并 且 由 你 来 生成 和 缓存 统计 信息 。 当 
用 户 发 表 了 一 篇 博客 ， 就 增加 用 户 的 版 本 号 到 1 (当然 也 要 同时 存储 这 
篇 博客 ， 尽 管 在 这 个 例子 并 没有 用 到 博客 数据 )  。 然 后 当 需 要 显示 统 
计数 据 的 时 候 ， 可 以 对 缓存 中 blog_stats 对 象 的 版 本 与 缓存 的 用 户 版 本 
进行 比较 。 因 为 用 户 的 版 本 比 对 象 的 版 本 高 ， 所 以 可 以 知道 缓存 的 统 
计 信 息 已 经 过 期 了 ， 需 要 重新 计算 。 


这 是 一 个 非 尝 粗糙 的 内 容 失 效 方式 ， 因 为 它 假设 依赖 于 用 户 的 每 
一 个 比特 的 数据 与 所 有 其 他 数据 都 有 交互 。 但 这 个 假设 并 不 总 是 成 立 
的 。 举 个 例子 ， 如 果 一 个 用 户 对 一 篇 博客 做 了 编辑 ， 你 也 需要 增加 用 
户 的 版 本 号 ， 这 就 会 导致 存储 的 统计 信息 失效 ， 而 实际 上 统计 信息 
(发 表 的 博客 数 ) 并 没 真 的 改变 。 这 个 取舍 是 很 简单 的 。 一 个 简单 的 
缓存 失效 策略 不 只 是 更 容易 创建 ， 也 可 能 更 加 高 效 。 

对 象 版 本 控制 是 一 种 简单 的 标记 缓存 方法 ， 它 可 以 处 理 更 复杂 的 


依赖 关系。 一 个 标记 的 缓存 可 以 识别 不 同类 型 的 依赖 ， 并 且 分 别 跟 路 
每 个 依赖 的 版 本 。 回 到 第 11 章 中 图 书 俱乐部 的 例子 ， 你 可 以 通过 下 面 


的 版 本 号 标记 评论 ， 使 缓存 的 评论 依赖 于 用 户 的 版 本 和 书 的 版 本 : 
user_ver=1234 和 book_ver=5678。 任 一 版 本 号 变 了 ， 都 应 该 刷新 缓存 的 
评论 。 


14.3.4 ”缓存 对 象 分 层 


分 层 缓存 对 象 对 检索 、 失 效 和 内 存 利 用 都 有 帮助 。 相 对 于 只 缓存 
对 象 ， 也 可 以 缓存 对 象 的 D、 对 象 的 ID 组 等 通 单 需 要 一 起 检索 的 数 
据 。 


电子 商务 网 站 的 搜索 结果 是 这 种 技术 很 好 的 例子 。 一 次 搜索 可 能 
返回 一 个 匹配 产品 的 列表 ， 包 括 名 称 、 描 述 、 缩 略图 ， 以 及 价格 。 缓 
存 整个 列表 的 效率 很 低 : 其 他 的 搜索 也 可 能 会 包含 一 些 相同 的 产品 ， 
这 就 会 导致 数据 重复 ， 并 且 浪 费 内 存 。 这 种 策略 也 使 得 当 一 个 产品 的 
价格 变动 时 ， 找 出 并 失效 搜索 结果 变 得 很 困难 ， 因 为 你 必须 查看 每 个 
列表 ， 找 到 哪些 列表 包含 了 更 新 过 的 产品 。 


可 以 缓存 关于 搜索 的 最 小 信息 ， 而 不 必 缓 存 整 个 列表 ， 例 如 返回 
结果 的 数量 以 及 列表 中 的 产品 ID。 人 然后 可 以 再 单独 缓存 每 个 产品 。 这 
样 做 可 解决 两 个 问题 : 不 会 重复 存放 任何 结果 数据 ， 也 更 容易 在 失效 
产品 的 粒度 上 去 失效 缓存 。 


缺点 则 是 ， 相 对 于 一 次 性 获得 整个 搜索 结果 ， 必 须 在 缓存 中 检索 
多 个 对 象 。 然 而 不 管 怎么 说 ， 为 搜索 结果 缓存 产品 也 的 列表 都 是 更 有 
效 的 做 法 。 先 在 一 个 缓存 命中 返回 ID 的 列表 ， 再 使 用 这 些 ID 去 请 求 缓 
存 获 得 产品 信息 。 如 果 缓 存 允 许 在 一 次 调用 里 返回 多 个 结果 ， 第 二 次 
请 求 就 可 以 返回 多 个 产品 (memcached 通 过 mget0) 调 用 来 支持 ) 。 


如 果 使 用 不 当 ， 这 种 方法 可 能 会 导致 奇怪 的 结果 。 假 设 使 用 TTL 
策略 来 失效 搜索 结果 ， 并 且 当 产 品 变更 时 显 式 地 去 失效 单个 产品 。 现 
在 想象 一 下 ， 一 个 产品 的 描述 发 生 了 变化 ， 不 再 包含 搜索 中 匹配 的 天 
键 字 ， 但 是 搜索 结果 的 缓存 还 没有 过 期 失效 。 此 时 用 户 就 会 看 到 钳 误 
的 搜索 结果 ， 因 为 缓存 的 搜索 结果 将 会 引用 这 个 变化 了 的 产品 ， 即 使 
它 不 再 包含 匹配 搜索 的 关键 子 。 


对 于 大 多 数 应 用 程序 来 说 ， 这 不 是 问题 。 如 果 应 用 程序 不 能 容忍 
这 种 情况 ， 可 以 使 用 基于 版 本 的 缓存 ， 并 在 执行 搜索 时 在 结果 中 存储 
产品 的 版 本 号 。 当 发 现 搜索 结果 在 缓存 中 时 ， 可 以 将 当前 搜索 结果 的 
版 本 号 和 搜索 结果 中 每 个 产品 的 版 本 号 做 比较 。 如 果 发 现任 何 一 个 产 
品 的 版 本 效 据 不 一 致 ， 可 以 重新 搜索 并 且 重 新 缓存 结果 。 


这 对 理解 远程 缓存 访问 的 花 销 是 多 么 昂贵 非常 重要 。 虽 然 缓存 很 
快 ， 也 可 以 避免 很 多 工作 ， 但 在 LAN 环 境 下 网 络 往返 缓存 服务 器 通常 
也 需要 0.3ms 左 右 。 我 们 见 过 很 多 案例 ， 复 杂 的 网 页 需要 一 千 次 左右 的 
缓存 访问 来 组 合 页 面 结果 ， 这 将 会 耗费 3s 左 右 的 网 络 延 时 ， 意 味 着 你 
的 页 面 可 能 慢 得 不 可 接受 ， 即 使 它 甚 至 不 需要 访问 数据 库 ! 因此 ， 在 
这 种 情况 下 对 缓存 使 用 批量 获取 调用 是 非常 重要 的 。 对 缓存 进行 分 
层 ， 采 用 小 一 些 的 本 地 缓存 ， 也 可 能 获得 很 大 的 收益 。 


14.3.5” 预 生成 内 容 


除了 在 应 用 程序 级 别 缓 存 位 数据 ， 也 可 以 在 后 台 预 先 请 求 一 些 页 
面 ， 并 且 将 结果 存 为 静态 页 面 。 如 果 页 面 是 动态 的 ， 也 可 以 预先 生成 
页 面 的 部 分 内 容 ， 然 后 使 用 像 服务 端 包含 (SS) 这 样 的 技术 创建 最 终 
页 面 。 这 有 助 于 减 小 预 生成 内 容 的 大 小 和 开销 ， 否 则 可 能 在 将 不 同 部 


分 拼装 到 最 终 页 面 的 时 候 ， 由 于 微小 的 变化 产生 大 量 的 重复 内 容 。 几 
乎 可 以 对 任何 类 型 的 缓存 使 用 预 生 成 策略 ， 包 括 memcached。 


预 生成 内 容 有 几 个 重要 的 好 处 。 


应 用 代码 没有 复杂 的 命中 和 未 命中 处 理 路 径 。 

当 未 命中 的 处 理 路 径 慢 得 不 可 接受 时 ， 这 种 方案 可 以 很 好 地 工 
作 ， 因 为 它 保证 了 未 命中 的 情况 永远 不 会 发 生 。 实 际 上 ， 在 任何 
时 候 设 计 任 何 类 型 的 缓存 系统 ， 总 是 应 该 考虑 未 命中 的 路 径 有 多 
慢 。 如 果 平 均 性 能 提升 很 大 ， 但 是 因为 要 预 生 成 缓存 内 容 ， 偶 尔 
有 一 些 请 求 变 得 非常 缓慢 ， 这 时 可 能 比 不 用 缓存 还 糟糕 。 性 能 的 
持续 稳定 通常 跟 高 性 能 一 样 重要 。 

预 生成 内 容 可 以 避免 在 缓存 未 命中 时 导致 的 雪 骨 效应 。 


缓存 预 生 成 好 的 内 容 可 能 占用 大 量 空间 ， 并 且 并 不 总 能 预 生 成 所 
有 东西 。 无 论 是 哪 种 形式 的 缓存 ， 需 要 预 生成 的 内 容 中 最 重要 的 部 分 
是 那些 最 经 常 被 请 求 ， 或 者 生成 的 成 本 最 高 的 ， 所 以 可 以 通过 本 章 前 
面 提 到 的 404 错 误 处 理 机 制 来 按 需 生成 。 


预 生成 的 内 容 有 时 候 也 可 以 从 内 存 文件 系统 中 获 益 ， 因 为 可 以 避 
免 磁盘 IO。 


14.3.6 ”作为 基础 组 件 的 缓存 


缓存 有 可 能 成 为 基础 设施 的 重要 组 成 部 分 。 也 很 容易 陷入 一 个 陷 
阱 ， 认 为 缓存 虽然 很 好 用 ， 但 并 不 是 重要 到 非 有 不 可 的 东西 。 你 也 许 
会 辩驳 ， 如 果 缓 存 服务 器 大 机 或 者 缓存 被 清空 ， 请 求 也 可 以 直接 沙 在 


数据 库 上 ， 系 统 依然 可 以 正常 运行 。 如 果 是 刚刚 将 缓存 加 入 应 用 系 
统 ， 这 也 许 是 对 的 ， 但 是 缓存 的 加 入 可 以 使 得 在 应 用 压力 显著 增长 时 
不 需要 对 系统 的 某 些 部 分 同比 增加 资源 投入 一 一 通常 是 数据 库 部 分 。 
因此 ， 系 统 可 能 慢 慢 地 变 得 对 缓存 非常 依赖 ， 却 没有 被 发 觉 。 


例如 ， 如 果 高 速 缓存 命中 率 是 90% ， 当 由 于 某 种 原因 失去 缓存 ， 
数据 库 上 的 负载 将 增加 到 原来 的 10 倍 。 这 很 可 能 导致 压力 超过 数据 库 
服务 器 的 性 能 极限 。 


为 了 避免 像 这 样 的 意外 ， 应 该 设计 一 些 高 可 用 性 缓存 (包括 数据 
和 服务 ) 的 解决 方案 ， 或 者 至 少 是 评估 好 茶 用 缓存 或 丢失 缓存 时 的 性 
能 影响 。 比 如 说 可 以 设计 应 用 在 遇 到 这 样 的 情况 时 能 够 进行 降级 处 
理 。 


14.3.7 ”使 用 HandlerSocket 和 
memcached 


相对 于 数据 存储 在 MySQL 中 而 缓存 在 MySQL 外 部 的 缓存 方案 ， 
另外 有 一 种 替代 方法 是 为 MySQL 创建 一 个 更 快 的 访问 路 径 ， 直 接 绕 过 
使 用 缓存 。 对 于 小 而 简单 的 查询 语句 ， 很 大 一 部 分 开销 来 自 解 析 
SQL， 检 查 权限 ， 生 成 执行 计划 ， 等 等 。 如 果 这 种 开销 可 以 避免 ， 
MySQL 在 处 理 简单 查询 时 将 非常 快 。 


目前 有 两 个 解决 方案 可 以 用 所 谓 的 NoSQL 方 式 访问 MySQL。 第 一 
种 是 一 个 后 台 进 程 插件 ， 称 为 HandlerSocket， 由 DeNA 开 发 ， 这 是 日 
本 最 大 的 社交 网 站 。 了 HandlerSocket 允 许 通过 一 个 简单 的 协议 访问 
InnoDB Handler 对 象 。 实 际 上 ， 也 就 是 绕 过 了 上 层 的 服务 器 层 ， 通 过 


网 络 直接 连接 到 了 InnoDB5 引 警 层 。 有 报告 称 HandlerSocket 每 秒 可 以 执 
行 超过 750 000 条 查询 。 Percona Servers ZA Y HandlerSocketth ft 


引擎 层 。 


第 二 个 方案 是 通过 memcached 协 议 访问 InnoDB。MySQL 5.6 的 实 
验 室 版 本 有 一 个 插件 提供 了 这 个 接口 。 


两 种 方法 都 有 一 些 限 制 一 一 特别 是 memcached 的 方法 ， 这 种 方法 
对 很 多 访问 数据 的 方法 都 不 支持 。 为 什么 会 希望 采用 SQL 以 外 的 什么 
办 法 访问 数据 呢 ? 除了 速度 之 外 ， 最 大 的 原因 可 能 是 简单 。 这 样 做 最 
大 的 好 处 是 可 以 摆脱 缓存 ， 以 及 所 有 的 失效 逻辑 ， 还 有 为 它们 服务 的 
额外 的 基础 设施 。 


14.4 拓展 MySQL 


如 果 MySQL 不 能 做 你 需要 的 事 ， 一 种 可 能 是 拓展 其 功能 。 在 这 里 
我 们 不 会 展示 如 何 做 到 这 一 点 ， 但 会 提供 一 些 可 能 的 方向 。 如 果 你 对 
进一步 探索 有 兴趣 ， 那 么 有 很 多 很 好 的 在 线 资源 ， 以 及 许多 关于 这 些 
内 容 的 书籍 可 以 参考 。 


当 我 们 说 “MySQL 不 能 做 你 需要 的 事 *"， 我 们 指 的 是 两 件 事情 : 
MySQL 根 本 做 不 到 这 一 点 ， 或 者 MySQL 可 以 做 到 ， 但 是 只 能 通过 缓 
慢 或 笨拙 的 方法 ， 总 之 做 得 不 够 好 。 无 论 哪个 都 是 需要 对 MySQL 拓 展 
的 原因 。 好 消息 是 ，MySQL 已 经 越 来 越 模块 化 和 通用 。 


存储 引擎 是 拓展 MySQL 的 一 个 很 好 的 方式 。Brian Aker 已 经 写 了 
一 个 存储 引擎 的 框架 ， 还 有 一 系列 介绍 有 关 如 何 开 始 编写 自己 的 存储 


引擎 的 文章 。 这 是 目前 几 个 主要 的 第 三 方 存储 引擎 的 基础 。 许 多 公司 
都 编写 了 它们 自己 的 内 部 存储 引擎 。 例 如 ， 一 些 社交 网 络 公司 使 用 了 
特殊 的 为 社交 图 形 操作 设计 的 存储 引擎 ， 我 们 还 知道 有 个 公司 定制 了 
一 个 用 于 模糊 搜索 的 引擎 。 与 一 个 简单 的 自 定 义 存 储 引 擎 并 不 难 。 


还 可 以 使 用 存储 引擎 作为 另 一 个 软件 的 接口 。Sphinx 引 擎 就 是 一 
个 很 好 的 例子 ， 该 引擎 是 Sphinx 全 文 检索 软件 的 接口 ( 见 附录 F) o 


14.5 MySQL 的 替代 品 


MySQL 并 不 是 适合 每 一 个 场景 的 解决 方案 。 有 些 工作 通常 在 
MySQL 以 外 来 做 会 更 好 ， 即 使 MySQL 理 论 上 也 可 以 做 到 。 


最 明显 的 一 个 例子 是 在 传统 的 文件 系统 中 存储 文件 ， 而 不 是 在 表 
中 。 图 像 文 件 是 经 典 案例 : 虽然 可 以 把 它们 放 到 一 个 BLOB 列 ， 但 这 
通常 不 是 个 好 办 法 中 。 一 般 的 做 法 是 ， 在 文件 系统 中 存储 图 片 或 其 他 
大 型 二 进 制 文 件 ， 而 在 MySQL 中 只 存储 文件 名 ; 然后 应 用 程序 在 
MySQL 之 外 存 取 文件 。 对 于 Web 应 用 程序 ， 可 以 把 文件 名 放 在 <img> 
元 素 的 src 属 性 中 ， 这 样 就 可 以 实现 对 文件 的 存 取 。 


全 文 检索 是 另 一 个 最 好 放 在 MySQL 之 外 处 理 的 例子 一 一 MySQL 
在 全 文 搜索 方面 明显 不 如 Lucene 和 Sphinx。 


NDB API 也 可 能 对 某 些 任务 有 用 。 例 如 ， 尽 管 MySQL 的 NDB 集 群 
存储 引擎 (目前 还 ) 不 适合 存储 一 个 高 性 能 Web 应 用 程序 的 全 部 数 
据 ， 但 用 NDB API 直 接 存 储 网 站 会 话 数据 或 用 户 注册 信息 还 是 可 能 
的 。 在 如 下 网 站 可 以 了 解 到 更 多 关于 NDB API 的 内 容 : 


http://dev.mysql.com/doc/ndbapi/en/index.html o 还 有 供 Apache 使 用 的 
NDB#3R, mod_ndb, ®JLAEhttp://code.google.com/p/mod-ndb/ F Ro 


最 后 ， 对 于 某 些 操作 一 一 如 图 形 天 系 和 树 遍 历 一 一 关系 型 数据 库 
并 不 总 是 正确 的 典范 。MySQL 并 不 擅长 分 布 式 数据 处 理 ， 因 为 它 缺乏 
并 行 执行 查询 的 能 力 。 出 于 这 些 目的 情况 还 是 建议 使 用 其 他 工具 (可 
能 与 MySQL 结 合 ) 。 现 在 想到 的 例子 包括 : 


。 对 于 简单 的 键 一 值 存储 ， 在 复制 严重 洛 后 的 非 瘦 高 速 的 访问 场景 
中 ， 我 们 建议 用 Redis 替 换 MySQL。 即 使 MySQL 主 库 可 以 承担 这 
样 的 压力 ， 备 库 的 延迟 也 是 非常 让 人 头疼 的 。Redis 也 常用 来 做 队 
列 ， 因 为 它 对 队列 操作 支持 得 很 好 。 

。 Hadoop 是 房间 中 的 大 象 ， 一 语 双 关 。 混 合 MySQL/Hadoop 的 部 署 
在 处 理 大 型 或 半 结 构 化 数据 时 非常 常见 。 


14.6 “总结 


优化 并 不 只 是 数据 库 的 事 。 正 如 我 们 在 第 3 章 建议 的 ， 最 高 形式 的 
优化 既 包 含 业 务 上 的 ， 也 包含 用 户 层 的 。 全 方位 的 优化 才 是 好 的 优 
化 。 


一 般 来 说 ， 首 先 要 做 的 事 是 测量 。 认 真 剖 析 每 一 层 的 问题 。 哪 一 
层 导致 了 大 部 分 的 响应 时 间 ? 对 这 一 层 就 要 重点 关注 。 如 果 用 户 的 经 
验 是 大 部 分 的 时 间 消 耗 在 浏览 器 的 DOM 泻 染 上 面 ，MySQL 只 贡献 总 
响应 时 间 的 一 小 部 分 ， 那 么 进一步 优化 碍 询 语句 绝对 不 可 能 明显 地 改 
善 用 户 体 验 。 在 测量 完成 后 ， 通 常 很 容易 理解 应 该 在 哪里 投入 精力 。 


我 们 建议 阅读 Steve Souders 的 两 本 书 (High Performance Web Sites #1] 
Even Faster Web Sites) ， 并 且 建 议 使 用 New Relic 工 具 。 


在 Web 服 务 器 的 配置 和 缓存 中 经 单 可 以 发 现 大 问题 ， 而 这 些 问题 
往往 很 容易 解决 。 还 有 一 个 固有 的 观念 , “总 是 数据 库 的 问题 *”， 但 这 
其 实 是 不 正确 的 。 应 用 程序 中 的 其 他 层 也 同样 重要 ， 它 们 很 可 能 被 错 
误 配 置 ， 尽 管 有 时 不 太 明 显 。 特 别 是 缓存 ， 能 承受 比 只 使 用 MySQL 要 
低 得 多 的 成 本 传递 大 量 内 容 。 虽 然 Apache 依 然 是 世界 上 最 流行 的 web 
服务 器 软件 ， 但 它 并 不 总 是 最 合适 的 工具 ， 因 此 考虑 像 Nginx 这 样 的 蔡 
代 方 案 也 是 非常 有 意义 的 。 


(1) 填 鸭 式 抓 取 发 生 在 当 一 个 客户 端 发 起 HITP 请 求 ， 但 是 没有 迅速 获取 结果 时 。 直 到 客 
户 端 获取 整个 结果 ，HTTP 连 接 一 一 以 及 处 理 的 Apache 进 程 一 一 都 将 保持 活跃 。 


(2) 有 一 本 关于 如 何 优化 Web 应 用 的 很 不 错 的 书 一 一 High Performance Web Sites， 作 者 是 
Steve Souders (O'Reilly) 。 尽 管 书 中 大 部 分 内 容 是 从 客户 的 角度 来 看 如 何 让 Web 站 点 运行 更 
快 ， 但 是 参考 他 的 建议 也 有 利于 你 的 服务 器 。Steve 后 续 的 一 本 书 Even Faster Web Sites 也 很 不 
错 ， 值 得 阅读 。 

(3) 使 用 MySQL 的 复制 来 快速 分 布 镜像 到 其 他 机 器 更 有 优势 ， 我 们 知道 一 些 程 序 使 用 这 种 
技术 。 


第 15 章 ”备份 与 恢复 


如 果 没 有 提前 做 好 备份 规划 ， 也 许 以 后 会 发 现 已 经 销 失 了 一 些 最 
佳 的 选择 。 例 如 ， 在 服务 器 已 经 配置 好 以 后 ， 才 想起 应 该 使 用 LVM， 
以 便 可 以 获取 文件 系统 的 快照 一 一 但 这 时 已 经 太 述 了 。 在 为 备份 配置 
系统 参数 时 ， 可 能 没有 注意 到 某 些 系 统 配置 对 性 能 有 着 重要 影响 。 如 

果 没 有 计划 做 定期 的 恢复 演练 ， 当 真 的 需要 恢复 时 ， 就 会 发 现 并 没有 
那么 顺利 。 


相对 于 本 书 的 第 一 版 和 第 二 版 来 说 ， 我 们 在 此 假设 大 部 分 用 户主 
要 使 用 InnoDB 而 不 是 MyISAM。 在 本 章 中 ， 我 们 不 会 涵盖 一 个 精心 设 
计 的 备份 和 恢复 解决 方案 的 所 有 部 分 一 一 而 仅 涉 及 与 MySQL 相 关 的 部 
分 。 我 们 不 打算 包括 的 话题 如 下 : 


。 安全 (访问 备份 ， 恢 复数 据 的 权限 ， 文 件 是 否 需要 加 密 ) o 
。 备份 存 储 在 哪里 ， 包 括 它们 应 该 离 源 数据 多 远 (在 一 块 不 同 的 盘 
上 ， 一 台 不 同 的 服务 器 上 ， 或 离线 存储 ) ， 以 及 如 何 将 数据 从 源 
头 移动 到 目的 地 。 
。 保留 筑 略 、 审 计 、 法 律 要 求 ， 以 及 相关 的 条 款 。 
。 存储 解决 方案 和 人 介质， 压缩， 以 及 增 量 备份 。 
。 存储 的 格式 。 

。 对 备份 的 监控 和 报告 。 
。 存储 层 内 置 备 份 功能 ， 或 者 其 他 专用 设备 ， 例 如 预制 式 文件 服务 
Ao 


像 这 样 的 话题 已 经 在 许多 书 中 涉及 ， 例 如 W. Curtis Preston 的 
Backup & Recouery (O'Reilly) 。 


在 开始 本 章 之 前 ， 让 我 们 先 澄清 几 个 核心 术语 。 首 先 ， 经 党 可 以 
听 到 所 谓 的 热 备 份 、 暖 备份 和 冷 备 份 。 人 们 经 常 使 用 这 些 词 来 表示 一 
个 备份 的 影响 : 例如 ,，“ 热 ”备份 不 需要 任何 的 服务 停机 时 间 。 问 题 是 
对 这 些 术 语 的 理解 因 人 而 异 。 有 些 工具 虽然 在 名 字 中 使 用 了 “ 热 备 
份 ”， 但 实际 上 并 不 是 我 们 所 认为 的 那样 。 我 们 尽量 避 开 这 些 术语 ， 而 
直接 说 明 某 个 特别 的 技术 或 工具 对 服务 器 的 影响 。 


另外 两 个 让 人 困惑 的 词 是 还 原 和 恢复 。 在 本 章 中 它们 有 其 特定 的 
含义 。 还 原意 味 着 从 备份 文件 中 获取 数据 ， 可 以 加 载 这 些 文件 到 
MySQL 里 ， 也 可 以 将 这 些 文件 放置 到 MySQL 期 望 的 路 径 中 。 人 恢复 一 
般 意 味 着 当 某 些 异 常 发 生 后 对 一 个 系统 或 其 部 分 的 拯救 。 包 括 从 备份 
中 还 原 数 据 ， 以 及 使 服务 器 完全 恢复 功能 的 所 有 必要 步 又， 例如 重启 


在 很 多 人 的 概念 中 ， 恢 复 仪 意味 着 修复 朋 溃 后 损坏 的 表 。 这 与 恢 
复 一 个 完整 的 服务 器 是 不 同 的 。 存 储 引 擎 的 骨 溃 恢复 要 求 数 据 和 日 志 
文件 一 致 。 要 确保 数据 文件 中 只 包含 已 经 提交 的 事务 所 做 的 修改 ， 恢 
复 操 作 会 将 日 志 中 还 没有 应 用 到 数据 文件 的 事务 重新 执行 。 这 也 许 是 
恢复 过 程 的 一 部 分 ， 甚 至 是 备份 的 一 部 分 。 然 而 ， 这 和 一 个 意外 的 
DROP TABLE 事 故 后 需要 做 的 事 是 不 一 样 的 。 


15.1 为 什么 要 备份 


下 面 是 备份 非常 重要 的 几 个 理由 : 


灾难 恢复 


灾难 恢复 是 下 列 场景 下 需要 做 的 事情 : 硬件 故障 、 一 个 不 经 
意 的 Bug 导 致 数据 损坏 ， 或 者 服务 器 及 其 数据 由 于 某 些 原因 不 可 
获取 或 无 法 使 用 等 。 你 需要 准备 好 应 付 很 多 问题 : 某 人 偶然 连 错 
服务 器 执行 了 一 个 ALTER TABLE(5 的 操作 ， 机 房 大 楼 被 烧毁 ， 恶 
意 的 黑客 攻击 或 MySQL 的 Bug 等 。 尽 管 遭受 任何 一 个 特殊 的 灾难 
的 几率 都 非常 低 ， 但 所 有 的 风险 荆 加 在 一 起 就 很 有 可 能 会 碰 到 。 


人 们 改变 想法 


不 必 惊 讶 ， 很 多 人 经 常会 在 删除 某 些 数据 后 又 想 要 恢复 这 些 
数据 。 


审计 


有 时 候 需 要 知道 数据 或 Schema 在 过 去 的 某 个 时 间 点 是 什么 样 
的 。 例 如 ， 你 也 许 被 卷 入 一 场 法 律 官司 ， 或 发 现 了 应 用 的 一 个 
Bug， 想 知道 这 段 代码 之 前 干 了 什么 《有 时 候 ， 仅 仅 依 靠 代码 的 
版 本 控制 还 不 够 ) 。 


测试 


一 个 最 简单 的 基于 实际 数据 来 测试 的 方法 是 ， 定 期 用 最 新 的 
生产 环境 数据 更 新 测试 服务 器 。 如 果 使 用 备份 的 方案 就 非常 简 
单 : 只 要 把 备份 文件 还 原 到 测试 服务 器 上 即 可 。 检 查 你 的 假设 。 
例如 ， 你 认为 共享 虚拟 主机 供应 商会 提供 MySQL 服 务 器 的 备份 ? 
许多 主机 供应 商 根本 不 备份 MySQL 服 务 器 ， 另 外 一 些 也 仅仅 在 服 
务 器 运行 时 复制 文件 ， 这 可 能 会 创建 一 个 损坏 的 没有 用 处 的 备 
份 。 


15.2 ”定义 恢复 需求 


如 果 一 切 正常 ， 那 么 永远 也 不 需要 考虑 恢复 。 但 是 ， 一 旦 需要 恢 
复 ， 只 有 世界 上 最 好 的 备份 系统 是 没 用 的 ， 还 需要 一 个 强大 的 恢复 系 


统 。 


不 幸 的 是 ， 让 备份 系统 平滑 工作 比 构造 良好 的 恢复 过 程 和 工具 更 
容易 。 原 因 如 下 : 


。 备份 在 先 。 只 有 已 经 做 了 备份 才 可 能 恢复 ， 因 此 在 构建 系统 时 ， 
注意 力 自然 会 集中 在 备份 上 。 

备份 由 脚本 和 任务 自动 完成 。 经 常 不 经 意 地 ， 我 们 会 花 些 时 间 调 
优 备 份 过 程 。 花 5 分 钟 来 对 备份 过 程 做 小 的 调整 看 起 来 并 不 重要 ， 
但 是 你 是 否 天 天 同样 地 重视 恢复 呢 ? 

备份 是 日 党 任务 ， 但 恢复 弟弟 发生 在 危急 情形 下 。 

因为 安全 的 需要 ， 如 果 正 在 做 异地 备份 ， 可 能 需要 对 备份 数据 进 
行 加密 ， 或 采取 其 他 措施 来 进行 保护 。 安 全 性 往往 只 关注 数据 被 
盗用 的 后 果 ， 但 是 有 没有 人 想 过 ， 如 果 没有 人 能 对 用 来 恢复 数据 
的 加 密 卷 解 锁 ， 或 需要 从 一 个 整 块 的 加 密 文 件 中 抽取 单个 文件 
时 ， 损 害 又 是 多 大 ? 

只 有 一 个 人 来 规划 、 设 计 和 实施 备份 。 当 灾难 袭 来 时 ， 那 个 人 可 
能 不 在 。 因 此 需要 培养 几 个 人 并 有 计划 地 互 为 备份 ， 这 样 就 不 会 
要 求 一 个 不 合格 的 人 来 恢复 数据 。 


这 里 有 一 个 我 们 看 到 的 真实 例子 : 一 个 客户 报告 说 当 mysqldump 
加 上 -qd 选项 后 ， 备 份 变 得 像 内 电 一 般 快 ， 他 想 知 道 为 什么 没有 一 个 人 
提出 该 选项 可 以 如 此 快 地 加 速 备份 过 程 。 如 果 这 个 客户 已 经 尝试 还 原 


这 些 备份 ， 就 不 难 发 现 其 原因 : 使 用 -d 选 项 将 不 会 备份 数据 ! 这 个 客 
户 关注 备份 ， 却 没有 关注 恢复 ， 因 此 完全 没有 意识 到 这 个 间 题 。 


规划 备份 和 恢复 策略 时 ， 有 两 个 重要 的 需求 可 以 帮助 思考 : 恢复 
点 目标 (PRO) 和 恢复 时 间 目 标 (RTO) 。 它 们 定义 了 可 以 容忍 丢失 
多 少数 据 ， 以 及 需要 等 待 多 久 将 数据 恢复 。 在 定义 RPO 和 RTO 时 ， 先 
关 试 回答 下 面 几 类 问题 : 


。 在 不 导致 严重 后 果 的 情况 下 ， 可 以 容忍 丢失 多 少数 据 ? 需要 故障 
恢复 ， 还 是 可 以 接受 自从 上 次 日 常备 份 后 所 有 的 工作 全 部 丢失 ? 
是 否 有 法 律 法 规 的 要 求 ? 

恢复 需要 在 多 长 时 间 内 完成 ? 哪 种 类 型 的 宕 机 是 可 接受 的 ? 哪 种 
影响 (例如 ， 部 分 服务 不 可 用 ) 是 应 用 和 用 户 可 以 接受 的 ? 当 那 
些 场景 发 生 时 ， 又 该 如 何 持续 服务 ? 

需要 恢复 什么 ? 党 见 的 需求 是 恢复 整个 服务 器 ， 单 个 数据 库 ， 单 
个 表 ， 或 仅仅 是 特定 的 事务 或 语句 。 


建议 将 上 面 这 些 问 题 的 答案 明确 地 用 文档 记录 下 来 ， 同 时 还 应 该 
明确 备份 策略 ， 以 及 备份 过 程 。 


备份 误区 1: “复制 就 是 备份 ” 


这 是 我 们 经 常 磁 到 的 一 个 误区 。 复 制 不 是 备份 ， 当 然 使 用 
RAID 阵 列 也 不 是 备份 。 为 什么 这 么 说 ? 可 以 考虑 一 下 ， 如 果 意 外 
地 在 生产 库 上 执行 了 DROP DATABASE， 它 们 是 否 可 以 帮 你 恢复 所 
有 的 数据 ? RAID 和 复制 连 这 个 简单 的 测试 都 没 法 通过 。 它 们 不 是 
备份 ， 也 不 是 备份 的 替代 品 。 只 有 备份 才能 满足 备份 的 要 求 。 


15.3 “设计 MIySQL 备 份 方案 


但 是 


备份 MySQL 比 看 起 来 难 。 最 基本 的 ， 备 份 仅 是 效 据 的 一 个 副本 ， 
受 限于 应 用 程序 的 要 求 、MySQL 的 存储 引擎 架构 ， 以 及 系统 配置 


等 因素 ， 会 让 复制 一 份 数 据 都 变 得 很 困难 。 


在 深入 所 有 选项 细节 之 前 ， 先 来 看 一 下 我 们 的 建议 : 


在 生产 实践 中 ， 对 于 大 数据 库 来 说 ， 物 理 备份 是 必需 的 : CHS 
份 太 慢 并 受到 资源 限制 ， 从 逻辑 备份 中 恢复 需要 很 长 时 间 。 基 于 
快照 的 备份 ， 例 如 Percona XtraBackup 和 和 MySQL Enterprise Backup 
是 最 好 的 选择 。 对 于 较 小 的 数据 库 ， 人 逻辑 备份 可 以 很 好 地 胜任 。 
保留 多 个 备份 集 。 

定期 从 逻辑 备份 (或 者 物理 备份 ) 中 抽取 数据 进行 恢复 测试 。 
保存 二 进 制 日 志 以 用 于 基于 故障 时 间 点 的 恢复 。expire_logs_days 
参数 应 该 设置 得 足够 长 ， 至 少 可 以 从 最 近 两 次 物理 备份 中 做 基于 
时 间 点 的 恢复 ， 这 样 就 可 以 在 保持 主 库 运 行 且 不 应 用 任何 二 进 制 | 
日 志 的 情况 下 创建 一 个 备 库 。 备 份 二 进 制 日 志 与 过 期 设置 无 关 ， 
二 进 制 日 志 备 份 需 要 保存 足够 长 的 时 间 ， 以 便 能 从 最 近 的 逻辑 备 
份 进行 恢复 。 

完全 不 借助 备份 工具 本 身 来 监控 备份 和 备份 的 过 程 。 需 要 另外 验 
证 备份 是 否 正 单 。 

通过 演练 整个 恢复 过 程 来 测试 备份 和 恢复 。 测 算 恢 复 所 需要 的 资 
源 (CPU、 磁 盘 空间 、 实 际 时 间 ， 以 及 网 络 带 宽 等 ) o 


。 对 安全 性 要 仔细 考虑 。 如 果 有 人 能 接触 生产 服务 器 ， 他 是 否 也 能 
访问 备份 服务 器 ? KARKE? 


弄 清楚 RPO 和 RTO 可 以 指导 备份 策略 。 是 需要 基于 故障 时 间 点 的 
恢复 能 力 ， 还 是 从 昨 晚 的 备份 中 恢复 但 会 丢失 此 后 的 所 有 数据 就 足够 
J? 如 果 需 要 基于 故障 时 间 点 的 恢复 ， 可 能 要 建立 日 弟 备 份 并 保证 所 
需要 的 二 进 制 日 志 是 有 效 的 ， 这 样 才能 从 备份 中 还 原 ， 并 通过 重 放 二 
进 制 日 志 来 恢复 到 想 要 的 时 间 点 。 


一 般 说 来 ， 能 承受 的 数据 丢失 越 多 ， 备 份 越 简 单 。 如 果 有 非常 奇 
刻 的 需求 ， 要 确保 能 恢复 所 有 数据 ， 备 份 就 很 困难 。 基 于 故障 时 间 点 
的 恢复 也 有 几 类 。 一 个 “宽松 ”的 故障 时 间 点 恢复 需求 意味 着 需要 重建 
数据 ， 直 到 “足够 接近 ”问题 发 生 的 时 刻 。 一 个 “硬性 ”的 需求 意味 着 不 
能 容忍 丢失 任何 一 个 已 提交 的 事务 ， 即 使 某 些 可 怕 的 事情 发 生 (例如 
服务 器 着 火 了 ) 。 这 需要 特别 的 技术 ， 例 如 将 二 进 制 日 志保 存在 一 个 
独立 的 SAN 卷 或 使 用 DRBD 磁 盘 复制 。 


15.3.1 在线 备份 还 是 离线 备份 


如 果 可 能 ， 关 闭 MySQL 做 备份 是 最 简单 最 安全 的 ， 也 是 所 有 获取 
一 致 性 副本 的 方法 中 最 好 的 ， 而 且 损坏 或 不 一 致 的 风险 最 小 。 如 果 关 
闭 了 MySQL ， 就 根本 不 用 关心 InnoDB 缓 冲 池 中 的 脏 页 或 其 他 缓存 。 也 
不 需要 担心 数据 在 尝试 备份 的 过 程 被 修改 ， 并 且 因 为 服务 器 不 对 应 用 
提供 访问 ， 所 以 可 以 更 快 地 完成 备份 。 


尽管 如 此 ， 让 服务 器 停机 的 代价 可 能 比 看 起 来 要 更 昂贵 。 即 使 能 
最 小 化 停机 时 间 ， 在 高 负载 和 高 数据 量 下 关闭 和 重启 MySQL 也 可 能 


伦 很 长 一 段 时 间 ， 这 在 第 8 章 中 讨论 过 。 我 们 演示 过 一 些 使 这 个 影响 最 
小 化 的 技术 ， 但 并 不 能 将 其 减少 为 零 。 因 此 ， 必 须要 设计 不 需要 生产 
服务 器 停机 的 备份 。 即 便 如 此 ， 由 于 一 致 性 的 需要 ， 对 服务 器 进行 在 
线 备份 仍然 会 有 明显 的 服务 中 断 。 


在 众多 的 备份 方法 中 ， 一 个 最 大 问题 就 是 它们 会 使 用 FLUSH 
TABLES WITH READ LOCK 操 作 。 这 会 导致 MySQL 关 闭 并 锁 住 所 有 
的 表 ， 将 MyISAM 的 数据 文件 刷新 到 磁盘 上 (但 InnoDB 不 是 这 样 
的 ! ) ， 并 且 刷 新 查询 缓存 。 该 操作 需要 非常 长 的 时 间 来 完成 。 具 体 
需要 多 长 时 间 是 不 可 预 估 的 ; 如 果 全 局 读 锁 要 等 待 一 个 长 时 间 运 行 的 
语句 完成 ， 或 有 许多 表 ， 那 么 时 间 会 更 长 。 除 非 锁 被 释放 ， 否 则 就 不 
能 在 服务 器 上 更 改 任何 数据 ， 一 切 都 会 被 阻塞 和 积压 久 。FLUSH 
TABLES WITH READ LOCK 不 像 关 闭 服 务 器 的 代价 那么 高 ， 因 为 大 部 


大 的 破坏 性 。 如 果 有 人 说 这 样 做 很 快 ， 可 能 是 准备 向 你 推销 某 种 从 来 
没有 在 真正 的 线 上 服务 器 上 运行 过 的 东西 。 


避免 使 用 FLUSH TABLES WITH READ LOCK 的 最 好 的 方法 是 只 
使 用 InnoDB 表 。 在 权限 和 其 他 系统 信息 表 中 使 用 MyISAM 表 是 不 可 避 
免 的 ， 但 是 如 果 数 据 改变 量 很 少 (正常 情况 下 ) ， 你 可 以 只 刷新 和 锁 
住 这 些 表 ， 这 不 会 有 什么 问题 。 


在 规划 备份 时 ， 有 一 些 与 性 能 相关 的 因素 需要 考虑 。 
锁 时 间 


需要 持 有 锁 多 长 时 间 ， 例 如 在 备份 期 间 持 有 的 全 局 FLUSH 
TABLES WITH READ LOCK? 


备份 时 间 

复制 备份 到 目的 地 需要 多 久 ? 
备份 负载 

在 复制 备份 到 目的 地 时 对 服务 器 性 能 的 影响 有 多 少 ? 
恢复 时 间 


把 备份 镜像 从 存储 位 置 复制 到 MySQL 服 务 器 ， 重 放 二 进 制 日 
志 等 ， 需 要 多 久 ? 


最 大 的 权衡 是 备份 时 间 与 备份 负载 。 可 以 牺牲 其 一 以 增强 另外 一 
例如 ， 可 以 提高 备份 的 优先 级 ， 代 价 是 降低 服务 器 性 能 。 


(0) 


同样 ， 也 可 以 利用 负载 的 特性 来 设计 备份 。 例 如 ， 如 果 服 务 器 在 
晚上 的 8 小 时 内 仪 仅 有 50% 的 负载 ， 那 么 可 以 尝试 规划 备份 ， 使 得 服务 
器 的 负载 低 于 50% 且 仍 能 在 8 小 时 内 完成 。 可 以 采用 许多 方法 来 完成 这 
个 目标 ， 例 如 ， 可 以 用 ionice 和 mice 来 提高 复制 或 压缩 操作 的 优先 级 ， 
使 用 不 同 的 压缩 等 级 ， 或 在 备份 服务 器 上 压缩 而 不 是 在 MySQL 服 务 器 
上 。 甚 至 可 以 利用 lzo 或 pigz 以 获取 更 快 的 压缩 。 也 可 以 使 用 
O_DIRECT 或 fadvise() 在 复制 操作 时 绕 开 操作 系统 的 缓存 ， 以 避免 污染 
服务 器 的 缓存 。 像 Percona XtraBackup 和 和 MySQL Enterprise Backup 这 样 
的 工具 都 有 限 流 选 项 ， 可 在 使 用 pv 时 加 --rate-limit 选 项 来 限制 备份 脚本 
Nats. 


15.3.2 ”逻辑 备份 还 是 物理 备份 


有 两 种 主要 的 方法 来 备份 MySQL 数 据 : 逻辑 备份 (也 叫 “ 导 出 ”) 


和 直接 复制 原始 文件 的 物理 备份 。 逻 辑 备 份 将 数据 包含 在 一 种 MySQL 
能 够 解析 的 格式 中 ， 要 么 是 SQL， 要 么 是 以 某 个 符号 分 隔 的 文本 3。 
原始 文件 是 指 存 在 于 硬盘 上 的 文件 。 


任何 一 种 备份 都 有 其 优点 和 缺点 。 


逻辑 备份 


逻辑 备份 有 如 下 优点 : 


逻辑 备份 是 可 以 用 编辑 器 或 像 grep 和 sed 之 类 的 命令 查看 和 操作 的 
普通 文件 。 当 需要 恢复 数据 或 只 想 查 看 数据 但 不 恢复 时 ， 这 都 非 
Ate 

恢复 非常 简单 。 可 以 通过 管道 把 它们 输入 到 mysq1， 或 者 使 用 
mysqlimporto 

可 以 通过 网 络 来 备份 和 恢复 
同 的 另外 一 台 机 器 上 操作 。 
可 以 在 类 似 Amazon RDS 这 样 不 能 访问 底层 文件 系统 的 系统 中 使 
用 。 

非常 灵活 ， 因 为 mysqldump 一 一 大 部 分 人 喜欢 的 工具 可 以 接 
受 许多 选项 ， 例 如 可 以 用 WHERE 子 句 来 限制 需要 备份 哪些 行 。 
与 存储 引擎 无 关 。 因 为 是 从 MySQL 服 务 器 中 提取 数据 而 生成 ， 所 
以 消除 了 底层 数据 存储 和 不 同 。 因 此 ， 可 以 从 InnoDB 表 中 备份 ， 
然后 只 需 极 小 的 工作 量 就 可 以 还 原 到 MyISAM 表 中 。 而 对 于 原始 
效 据 却 不 能 这 么 做 。 


就 是 说 ， 可 以 在 与 MySQL 主机 不 


。 有 助 于 避免 数据 损坏 。 如 果 磁 盘 驱 动 器 有 故障 而 要 复制 原始 文件 
时 ， 你 将 会 得 到 一 个 错误 并 且 / 或 生成 一 个 部 分 或 损坏 的 备份 。 如 
果 MySQL 在 内 存 中 的 数据 还 没有 损坏 ， 当 不 能 得 到 一 个 正常 的 原 
始 文件 复制 时 ， 有 时 可 以 得 到 一 个 可 以 信赖 的 逻辑 备份 。 


尽管 如 此 ， 逻 辑 备 份 也 有 它 的 缺点 : 


必须 由 数据 库 服务 器 完成 生成 逻辑 备份 的 工作 ， 因 此 要 使 用 更 多 
的 CPU 周期 。 

逻辑 备份 在 某 些 场景 下 比 数 据 库 文件 本 身 更 大 (多 。ASCII 形 式 的 数 
据 不 总 是 和 存储 引擎 存储 数据 一 样 高 效 。 例 如 ， 一 个 整 型 需要 4 字 
节 来 存储 ， 但 是 用 ASCII 写 入 时 ， 可 能 需要 12 个 字符 。 当 然 也 可 
以 压缩 文件 以 得 到 一 个 更 小 的 备份 文件 ， 但 这 样 会 使 用 更 多 的 
CPU 资源 。 (如 果 索 引 比 较 多 ， 人 逻辑 备份 一 般 要 比 物理 备份 
小 。) 

无 法 保证 导出 后 再 还 原 出 来 的 一 定 是 同样 的 数据 。 浮 点 表示 的 问 
题 、 软 件 Bug 等 都 会 导致 问题 ， 尽 管 非常 少见 。 

从 逻辑 备份 中 还 原 需 要 MySQL 加 载 和 解释 语句 ， 转 化 为 存储 格 
式 ， 并 重建 索引 ， 所 有 这 一 切 会 很 慢 。 


最 大 的 缺点 是 从 MySQL 中 导出 数据 和 通过 SQL 语 句 将 其 加 载 回去 
的 开销 。 如 果 使 用 逻辑 备份 ， 测 试 恢复 需要 的 时 间 将 非常 重要 。 


Percona Server 中 包含 的 mysqldump ， 在 使 用 mnoDB 表 时 能 起 到 帮 
助 作 用 ， 因 为 它 会 对 输出 格式 化 ， 以 便 在 重新 加 载 时 利用 InnoDB 的 快 
速 建 索引 的 优点 。 我 们 的 测试 显示 这 样 做 可 以 减少 2/3 甚 至 更 多 的 还 原 
时 间 。 索 引 越 多 ， 好 处 越 明显 。 


物理 备份 


物理 备份 有 如 下 好 处 : 


基于 文件 的 物理 备份 ， 只 需要 将 需要 的 文件 复制 到 其 他 地 方 即 可 
完成 备份 。 不 需要 其 他 额外 的 工作 来 生成 原始 文件 。 

物理 备份 的 恢复 可 能 就 更 简单 了 ， 这 取决 于 存储 引擎 。 对 于 
MyISAM， 只 需要 简单 地 复制 文件 到 目的 地 即 可 。 对 于 InnoDB 则 
需要 停止 数据 库 服务 ， 可 能 还 要 采取 其 他 一 些 步骤 。 

InnoDB 和 MyISAM 的 物理 备份 非常 容易 跨 平 台 、 操 作 系统 和 
MySQL 版 本 。 (逻辑 导出 亦 如 此 。 这 里 特别 指出 这 一 点 是 为 了 消 
除 大 家 的 担心 。) 

从 物理 备份 中 恢复 会 更 快 ， 因 为 MySQL 服 务 器 不 需要 执行 任何 
SQL 或 构建 素 引 。 如 果 有 很 大 的 InnoDB 表 ， 无 法 完全 缓存 到 内 存 
中 ， 则 物理 备份 的 恢复 要 快 非常 多 一 一 至 少 要 快 一 个 数量 级 。 事 
实 上 ， 人 逻辑 备份 最 可 怕 的 地 方 就 是 不 确定 的 还 原 时 间 。 


物理 备份 也 有 其 缺点 ， 比 如 : 


InnoDB 的 原始 文件 通常 比 相 应 的 逻辑 备份 要 大 得 多 。InnoDB 的 表 
空间 往往 包含 很 多 未 使 用 的 空间 。 还 有 很 多 空间 被 用 来 做 存储 数 
据 以 外 的 用 途 AE, RRE) o 

物理 备份 不 总 是 可 以 跨 平台 、 操 作 系统 及 MySQL 和 版 本 。 文 件 名 大 
小 写 敏 感 和 浮 点 格式 是 可 能 会 遇 到 麻烦 。 很 可 能 因 浮 点 格式 不 同 
而 不 能 移动 文件 到 另 一 个 系统 (虽然 主流 处 理 器 都 使 用 IEEE 浮 点 
格式 。) 


物理 备份 通常 更 加 简单 高 效 匀 。 尽 管 如 此 ， 对 于 需要 长 期 保留 的 
备份 ， 或 者 是 满足 法 律 合 规 要 求 的 备份 ， 尽 量 不 要 完全 依赖 物理 备 
份 。 至 少 每 隔 一 段 时 间 还 是 需要 做 一 次 逻辑 备份 。 


除非 经 过 测试 ， 不 要 假定 备份 (特别 是 物理 备份 ) 是 正常 的 。 对 
InnoDB 来 说 ， 这 意味 着 需要 启动 一 个 MySQL 实 例 ， 执 行 InnoDB 恢 复 
操作 ， 然 后 运行 CHECK TABLES。 也 可 以 跳 过 这 一 操作 ， 仅 对 文件 运 
行 innochecksum ， 但 我 们 不 建议 这 样 做 。 对 于 MyISAM ， 可 以 运行 
CHECK TABLES ， 或 者 使 用 mysqicheck。 使 用 mysqicheck 可 以 对 所 有 
的 表 执 行 CHECK TABLES 操 作 。 


建议 混合 使 用 物理 和 逻辑 两 种 方式 来 做 备份 : 先 使 用 物理 复制 ， 
以 此 数据 启动 MySQL 服 务 器 实例 并 运行 mysqlcheck。 然 后 ， 周 期 性 地 
使 用 mysqldump 执 行人 逻辑 备份 。 这 样 做 可 以 获得 两 种 方法 的 优点 ， 不 
会 使 生产 服务 器 在 导出 时 有 过 度 负担 。 如 果 能 够 方便 地 利用 文件 系统 
的 快照 ， 也 可 以 生成 一 个 快照 ， 将 该 快照 复制 到 另外 一 个 服务 器 上 并 
释放 ， 然 后 测试 原始 文件 ， 再 执行 逻辑 备份 。 


15.3.3 ”备份 什么 


恢复 的 需求 决定 需要 备份 什么 。 最 简单 的 策略 是 只 备份 数据 和 表 
定义 ， 但 这 是 一 个 最 低 的 要 求 。 在 生产 环境 中 恢复 数据 库 一 般 需 要 更 
多 的 工作 。 下 面 是 MySQL 备 份 需要 考虑 的 几 点 。 


非 显 著 数 据 


不 要 忘记 那些 容易 被 忽略 的 数据 : 例如 ， 二 进 制 日 志和 
InnoDB 事 务 日 志 。 


代码 


现代 的 MySQL 服 务 器 可 以 存储 许多 代码 ， 例 如 触发 器 和 人 存储 
过 程 。 如 果 备 份 了 mysql 数 据 库 ， 那 么 大 部 分 这 类 代码 也 备份 了 ， 
但 如 果 需 要 还 原单 个 业务 数据 库 会 比较 麻烦 ， 因 为 这 个 数据 库 中 
的 部 分 “数据 *”， 例 如 存储 过 程 ， 实 际 是 存放 在 mysql 数 据 库 中 的 。 


复制 配置 


如 果 恢 复 一 个 涉及 复制 关系 的 服务 器 ， 应 该 备份 所 有 与 复制 
相关 的 文件 ， 例 如 二 进 制 日 志 、 中 继 日 志 、 日 志 索 引文 件 和 .info 
文件 。 至 少 应 该 包含 SHOW MASTER STATUS 和 /或 SHOW 
SLAVE STATUS 的 输出 。 执 行 FLUSH LOGS 也 非常 有 好 处 ， 可 以 
让 MySQL 从 一 个 新 的 二 进 制 日 志 开 始 。 从 日 志文 件 的 开头 做 基于 
故障 时 间 点 的 恢复 要 比 从 中 间 更 容易 。 


服务 器 配置 


假设 要 从 一 个 实际 的 灾难 中 恢复 ， 比 如 说 ， 地 震 过 后 在 一 个 
新 数据 中 心中 构建 服务 器 ， 如 果 备 份 中 包含 服务 器 配置 ， 你 一 定 


会 喜出望外 。 
选 定 的 操作 系统 文件 


对 于 服务 器 配置 来 说 ， 备 份 中 对 生产 服务 器 至 天 重要 的 任何 
外 部 配置 ， 都 十 分 重要 。 在 UNIX 服 务 器 上 ， 这 可 能 包括 cron 任 


务 、 用 户 和 组 的 配置 、 管 理 脚本 ， 以 及 sudo 规 则 。 


这 些 建议 在 许多 场景 下 会 被 当 作 “备份 一 切 ”。 然 而 ， 如 果 有 大 量 
的 数据 ， 这 样 做 的 开销 将 非常 高 ， 如 何 做 备份 ， 需 要 更 加 明智 的 考 
虑 。 特 别 是 ， 可 能 需要 在 不 同 备份 中 备份 不 同 的 数据 。 例 如 ， 可 以 单 
独 地 备份 数据 、 二 进 制 日 志和 操作 系统 及 系统 配置 。 


增 量 备 份 和 差异 备份 


当 数 据 量 很 庞大 时 ， 一 个 常见 的 策略 是 做 定期 的 增 量 或 差异 备 
份 。 它 们 之 间 的 区 别 有 点 容易 让 人 瘟 淆 ， 所 以 先 来 淤 清 这 两 个 术语 : 
差异 备份 是 对 自 上 次 全 备份 后 所 有 改变 的 部 分 而 做 的 备份 ， 而 增 量 备 
份 则 是 自从 任意 类 型 的 上 次 备份 后 所 有 修改 做 的 备份 。 


例如 ， 假 如 在 每 周 日 做 一 个 全 备份 。 在 周一 ， 对 自 周 日 以 来 所 有 
的 改变 做 一 个 差异 备份 。 在 周二 ， 就 有 两 个 选择 : 备份 自 周 日 以 来 所 
有 的 改变 (25) ， 或 只 备份 自从 周一 备份 后 所 有 的 改变 ( 增 量 ) 。 


增 量 和 差异 备份 都 是 部 分 备份 : 它们 一 般 不 包含 完整 的 数据 集 ， 
因为 某 些 数 据 几 乎 肯定 没有 改变 。 部 分 备份 对 减少 服务 器 开销 、 备 份 
时 间 及 备份 空间 而 言 都 很 适合 。 尽 管 某 些 部 分 备份 并 不 会 真正 减少 服 
务 器 的 开销 。 例 如 ，Percona XtraBackup 和 MySQL Enterprise Backup, 
仍然 会 扫描 服务 器 上 的 所 有 数据 块 ， 因 而 并 不 会 节约 太 多 的 开销 ， 但 
它们 确实 会 减少 一 定量 的 备份 时 间 和 大 量 用 于 压缩 的 CPU 时 间 ， 当 然 

会 减少 磁盘 空间 使 用 (9。 


不 要 因为 会 用 高 级 备份 技术 而 自负 ， 解 决 方案 越 复杂 ， 可 能 面临 
的 风险 也 越 大 。 要 注意 分 析 隐 藏 的 危险 ， 如 果 多 次 迭代 备份 紧密 地 磷 


合 在 一 起 ， 则 只 要 其 中 的 一 次 迭代 备份 有 损坏 ， 束 可 能 会 导致 所 有 的 
备份 都 无 效 。 


下 面 有 一 些 建议 : 


使 用 Percona XtraBackup 和 MySQL Enterprise Backup 中 的 增 量 备 
份 特 性 。 

备份 二 进 制 日 志 。 可 以 在 每 次 备份 后 使 用 FLUSH LOGS 来 开始 一 
个 新 的 二 进 制 日 志 ， 这 样 就 只 需要 备份 新 的 二 进 制 日 志 。 

不 要 备份 没有 改变 的 表 。 有 些 存储 引擎 ， 例 如 MyISAM， 会 记录 
每 个 表 最 后 修改 时 间 。 可 以 通过 查看 磁盘 上 的 文件 或 运行 SHOW 
TABLE STATUS 来 看 这 个 时 间 。 如 果 使 用 InnoDB， 可 以 利用 触发 
器 记录 修改 时 间 到 一 个 小 的 “最 后 修改 时 间 ” 表 中 ， 帮 助 跟踪 最 新 
的 修改 操作 。 需 要 确保 只 对 变更 不 频繁 的 表 进 行 跟踪 ， 这 样 才能 
降低 开销 。 通 过 定制 的 备份 脚本 可 以 轻松 获取 到 哪些 表 有 变更 。 
例如 ， 如 果 有 包含 不 同 语种 各 个 月 的 名 称 列 表 ， 或 者 州 或 区 域 的 
简写 之 类 的 “查找 ” 表 ， 将 它们 放 在 一 个 单独 的 数据 库 中 是 个 好 主 
意 ， 这 样 就 不 需要 每 次 都 备份 这 些 表 。 

不 要 备份 没有 改变 的 行 。 如 果 一 个 表 只 做 插入 ， 例 如 记录 网 页 页 
面 点 击 的 表 ， 那 么 可 以 增加 一 个 时 间 戳 的 列 ， 然 后 只 备份 自 上 次 
备份 后 插入 的 行 。 

某 些 数据 根本 不 需要 备份 。 有 时 候 这 样 做 影响 会 很 大 一 一 例如 ， 
如 果 有 一 个 从 其 他 数据 构建 的 数据 仓库 ， 从 技术 上 讲 完全 是 元 余 
的 ， 就 可 以 仅 备 份 构建 仓库 的 数据 ， 而 不 是 数据 仓库 本 身 。 即 使 
从 源 数据 文件 重建 仓库 的 “恢复 ”时 间 较 长 ， 这 也 是 个 好 想法 。 相 
对 于 从 全 备 中 可 能 获得 的 快速 恢复 时 间 ， 避 免 备份 可 以 节约 更 多 


的 总 的 时 间 开 销 。 临 时 数据 也 可 以 不 用 备份 ， 例 如 保留 网 站 会 话 
数据 的 表 。 

。 备份 所 有 的 数据 ， 然 后 发 送 到 一 个 有 去 重 特 性 的 目的 地 ， 例 如 
ZFS 文 件 管理 程序 。 


增 量 备份 的 缺点 包括 增加 恢复 复杂 性 ， 额 外 的 风险 ， 以 及 更 长 的 
恢复 时 间 。 如 果 可 以 做 全 备 ， 考 虑 到 简便 性 ， 我 们 建议 尽量 做 全 备 。 


不 管 如 何 ， 还 是 需要 经 常 做 全 备份 一 一 建议 至 少 一 周一 次 。 你 肯 
定 不 会 希望 使 用 一 个 月 的 所 有 增 量 备份 来 进行 恢复 。 即 使 一 周 也 还 是 
有 很 多 的 工作 和 风险 的 。 


15.3.4 ”存储 引擎 和 一 致 性 

MySQL 对 存储 引擎 的 选择 会 导致 备份 明显 更 复杂 。 问 题 是 ， 对 于 
给 定 的 存储 3 引擎， 如何 得 到 一 致 的 备份 。 

实际 上 有 两 类 一 致 性 需要 考虑 : 数据 一 致 性 和 文件 一 致 性 。 


数据 一 致 性 


当 备份 时 ， 应 该 考虑 是 否 需 要 数据 在 指定 时 间 点 一 致 。 例 如 ， 在 
一 个 电子 商务 数据 库 中 ， 可 能 需要 确保 发 货 单 和 付款 之 间 一 致 。 恢 复 
付款 时 如 果 不 考虑 相应 的 发 货 单 ， 或 反 过 来 ， 都 会 导致 麻烦。 


如 果 做 在 线 备 份 《从 一 个 运行 的 服务 器 做 备份 ) ， 可 能 需要 所 有 
相关 表 的 一 致 性 备份 。 这 意味 着 不 能 一 次 锁 住 一 张 表 然后 做 备份 一 一 


因而 意味 着 备份 可 能 比 预 想 的 要 更 有 侵入 性 。 如 果 使 用 的 不 是 事务 型 
存储 引擎 ， 则 只 能 在 备份 时 用 LOCK TABLES 来 锁 住 所 有 要 一 起 备份 
的 表 ， 备 份 完成 后 再 释放 锁 。 


InnoDB 的 多 版 本 控制 功能 可 以 帮 到 我 们 。 开 始 一 个 事务 ， 转 储 一 
组 相关 的 表 ， 然 后 提交 事务 。 (如 果 使 用 了 事务 获取 一 致 性 备份 ， 则 
不 能 用 LOCK TABLES ， 因 为 它 会 隐 式 地 提交 事务 一 一 详情 参见 
MySQL 手 册 。) 只 要 在 服务 器 上 使 用 REPEATABLE READ 事 务 隔离 级 
别 ， 并 且 没 有 任何 DDL ， 就 一 定 会 有 完美 的 一 致 性 ， 以 及 基于 时 间 点 
的 数据 快照 ， 且 在 备份 过 程 中 不 会 阻塞 任何 后 续 的 工作 。 


尽管 如 此 ， 这 种 方法 并 不 能 保护 逻辑 设计 很 差 的 应 用 。 假 如 在 电 
子 商 务 库 中 插入 一 条 付款 记录 ， 提 交 事 务 ， 然 后 在 另外 一 个 事务 中 插 
入 一 条 发 货 单 记 录 。 备 份 过 程 可 能 在 这 两 个 操作 之 间 开 始 ， 备 份 了 付 
款 记录 却 不 包括 发 货 单 记录 。 这 就 是 必须 仔细 设计 事务 以 确保 相关 的 
操作 放 在 一 个 组 内 的 原因 。 


也 可 以 用 mysqldump 来 获得 InnoDB 表 的 一 致 性 逻辑 备份 ， 采 用 -- 
single-transaction 选 项 可 以 按照 我 们 所 描述 的 那样 工作 。 但 是 ， 这 可 能 
会 导致 一 个 非常 长 的 事务 ， 在 某 些 负载 下 会 导致 开销 大 到 不 可 接受 。 


文件 一 致 性 


每 个 文件 的 内 部 一 致 性 也 非常 重要 一 一 例如 ， 一 条 大 的 UPDATE 
语句 执行 时 备份 反映 不 出 文件 的 状态 一 一 并 且 所 有 要 备份 的 文件 相互 
间 也 应 一 致 。 如 果 没 有 内 部 一 致 的 文件 ， 还 原 时 可 能 会 感到 惊讶 (Cc 
们 可 能 已 经 损坏 ) 。 如 果 是 在 不 同 的 时 间 复 制 相 关 的 文件 ， 它 们 彼此 


可 能 也 不 一 致 。MyISAM 的 .MYD 和 .MYI 文 件 就 是 个 例子 。InnoDB 如 果 
检测 到 不 一 致 或 损坏 ， 会 记录 错误 日 志 乃 至 让 服务 器 骨 溃 。 


对 于 非 事 务 性 存储 引擎 ， 例 如 MyISAM， 可 能 的 选项 是 锁 住 并 刷 
新 表 。 这 意味 着 要 么 用 LOCK TABLES 和 FLUSH TABLES 结 合 的 方法 
以 使 服务 器 将 内 存 中 的 变更 刷 到 磁盘 上 ， 要 么 用 FLUSH TABLES 
WITH READ LOCK。 一 旦 刷新 完成 ， 就 可 以 安全 地 复制 MyISAM 的 原 
始 文件 。 


对 于 InnoDB ， 确 保 文件 在 磁盘 上 一 致 更 困难 。 即 使 使 用 FLUSH 
TABLES WITH READ LOCK，InnoDB 依 旧 在 后 台 运 行 : 插入 缓存 、 
日 志和 写 线程 继续 将 变更 合并 到 日 志和 表 空 间 文 件 中 。 这 些 线程 设计 
上 是 异步 的 一 一 在 后 台 执 行 这 些 工 作 可 以 帮助 InnoDB 取 得 更 高 的 并 发 
性 一 一 正 因为 如 此 它们 与 LOCK TABLES 无 关 。 因 此 ， 不 仅 需 要 确保 
每 个 文件 内 部 是 一 致 的 ， 还 需要 同时 复制 同一 个 时 间 点 的 日 志和 表 空 
间 文 件 。 如 果 在 备份 时 有 其 他 线程 在 修改 文件 ， 或 在 与 表 空 间 文 件 不 
同 的 时 间 点 备份 日 志文 件 ， 会 在 恢复 后 再 次 因 系统 损坏 而 告终 。 可 以 
通过 下 面 几 个 方法 规避 这 个 问题 。 


。 等 待 直到 InnoDB 的 清除 线程 和 插入 缓冲 合并 线程 完成 。 可 以 观察 
SHOW INNODB STATUS 的 输出 ， 当 没有 脏 缓存 或 挂 起 的 写 时 ， 
就 可 以 复制 文件 。 尽 管 如 此 ， 这 种 方法 可 能 需要 很 长 一 段 时 间 ; 
因为 InnoDB 的 后 台 线 程 涉 及 太 多 的 干扰 而 不 太 安 全 。 所 以 我 们 不 
推荐 这 种 方法 。 

在 一 个 类 似 LVM 的 系统 中 获取 数据 和 日 志文 件 一 致 的 快照 ， 必 须 
让 数据 和 日 志文 件 在 快照 时 相互 一 致 ; 单独 取 它 们 的 快照 是 没 

意义 的 。 在 本 章 后 续 的 LVM 快 照 中 会 讨论 。 


。 发 送 一 个 STOP 信 号 给 MySQL ， 做 备份 ， 然 后 再 发 送 一 个 CONT 信 
号 来 再 次 唤醒 MySQL。 看 起 来 像 是 一 个 很 少 推荐 的 方法 ， 但 如 果 
另外 一 种 方法 是 在 备份 过 程 中 需要 关闭 服务 器 ， 则 这 种 方法 值得 
考虑 。 至 少 这 种 技术 不 需要 在 重启 服务 器 后 预 热 。 


在 复制 数据 文件 到 其 他 地 方 后 ， 就 可 以 释放 锁 以 使 MySQL 服 务 器 
单 


从 备 库 中 备份 最 大 的 好 处 是 可 以 不 干扰 主 库 ， 避 人 免 在 主 库 上 增加 
额外 的 负载 。 这 是 一 个 建立 备 库 的 好 理由 ， 即 使 不 需要 用 它 做 负载 均 
衡 或 高 可 用 。 如 果 钱 是 个 问题 ， 也 可 以 把 备份 用 的 备 库 用 于 其 他 用 
途 ， 例 如 报表 服务 一 一 只 要 不 对 其 做 写 操 作 ， 以 确保 备份 时 不 会 修改 
数据 。 备 库 不 必 只 用 于 备份 的 目的 ， 只 需要 在 下 次 备份 时 能 及 时 跟 上 
主 库 ， 即 使 有 时 因 作 为 其 他 用 途 导致 复制 延 时 也 没有 关系 。 


当 从 备 库 备份 时 ， 应 该 保存 所 有 关于 复制 进程 的 信息 ， 例 如 备 库 
相对 于 主 库 的 位 置 。 这 对 于 很 多 情况 都 非常 有 用 : 克隆 新 的 备 库 ， 重 
新 应 用 二 进 制 日 志 到 主 库 上 以 获得 指定 时 间 点 的 恢复 ， 将 备 库 提升 为 
主 库 等 。 如 果 停 止 备 库 ， 需 要 确保 没有 打开 的 临时 表 ， 因 为 它们 可 能 
导致 不 能 重启 备 库 。 


故意 将 一 个 备 库 延 时 一 段 时 间 对 于 某 些 灾难 场景 非常 有 用 。 例 如 
延 时 复制 一 小 时 ， 当 一 个 不 期 望 的 语句 在 主 库 上 运行 后 ， 将 有 一 个 小 
时 的 时 间 观 察 到 并 在 从 中 继 日 志 重 放 之 前 停 掉 复 制 。 然 后 可 以 将 备 库 
提升 为 主 库 ， 重 放 少 量 相关 的 日 志 事件 ， 跳 过 错误 的 语句 。 这 比 我 们 


后 面 将 要 讨论 的 指定 时 间 点 的 恢复 技术 可 能 要 快 很 多 。Percona Toolkit 
中 pt-slave-delay 工 具 可 以 帮助 实现 这 个 方案 。 


Kay 备 库 可 能 与 主 库 数 据 不 完全 一 样 。 许 多 人 认为 备 库 是 主 库 完 全 一 样 的 副本 ， 但 


以 我 们 的 经 验 ， 主 库 与 备 库 数 据 不 匹配 是 很 常见 的 ， 并 且 MySQL 没 有 方法 检测 这 个 问题 。 检 
测 这 个 问题 的 唯一 方法 是 使 用 Percona Toolkit 中 的 pt-table-checksum 之 类 的 工具 。 


拥有 一 个 复制 的 备 库 可 能 在 诸如 主 库 的 硬盘 烧 坏 时 提供 帮助 ， 但 却 不 能 提供 保证 。 复 制 
不 是 备份 。 


15.4 ”管理 和 备份 二 进 制 日 志 


服务 器 的 二 进 制 日 志 是 备份 的 最 重要 因素 之 一 。 它 们 对 于 基于 时 
间 点 的 恢复 是 必需 的 ， 并 且 通 常 比 数据 要 小 ， 所 以 更 容易 进行 频繁 的 
备份 。 如 果 有 某 个 时 间 点 的 数据 备份 和 所 有 从 那 时 以 后 的 二 进 制 日 
志 ， 就 可 以 重 放 自 从 上 次 全 备 以 来 的 二 进 制 日 志 并 “前 滚 * 所 有 的 变 
更 。 


MySQL 复 制 也 使 用 二 进 制 日 志 。 因 此 备份 和 恢复 的 策略 经 常 和 复 
制 配置 相互 影响 。 


二 进 制 日 志 很 “特别 ”。 如 果 丢 失 了 数据 ， 你 一 定 不 希望 同时 丢失 
了 二 进 制 日 志 。 为 了 让 这 种 情况 发 生 的 几率 减少 到 最 小 ， 可 以 在 不 同 
的 卷 上 保存 数据 和 二 进 制 日 志 。 即 使 在 LVM 下 生成 二 进 制 日 志 的 快 
照 ， 也 是 可 以 的 。 为 了 额外 的 安全 起 见 ， 可 以 将 它们 保存 在 SAN 上 ， 
或 用 DRBD 复 制 到 另外 一 个 设备 上 。 


经 常备 份 二 进 制 日 志 是 个 好 主意 。 如 果 不 能 承受 丢失 超过 30 分 钟 
数据 的 价值 ， 至 少 要 每 30 分 钟 就 备份 一 次 。 也 可 以 用 一 个 配置 -- 
log_slave_update 的 只 读 备 库 ， 这 样 可 以 获得 额外 的 安全 性 。 备 库 上 日 
志 位 置 与 主 库 不 匹配 ， 但 找到 恢复 时 正确 的 位 置 并 不 难 。 最 后 ， 
MySQL 5.6 版 本 的 mysqlbinlog 有 一 个 非常 方便 的 特性 ， 可 连接 到 服务 
器 上 来 实时 对 二 进 制 日 志 做 镜像 ， 比 起 运行 一 个 mysqld 实 例 要 简单 和 
轻便 。 它 与 老 版 本 是 向 后 兼容 的 。 


请 参考 第 8 章 和 第 10 章 中 我 们 推荐 的 关于 二 进 制 日 志 的 服务 器 配 
置 。 


15.4.1 二进制 日 志 格 式 


二 进 制 日 志 包含 一 系列 的 事件 。 每 个 事件 有 一 个 固定 长 度 的 头 ， 
其 中 有 各 种 信息 ， 例 如 当前 时 间 惟 和 默认 的 数据 库 。 可 以 使 用 
mysqlbinlog 工 具 来 查看 二 进 制 日 志 的 内 容 ， 打 印 出 一 些 头 信息 。 下 面 
是 一 个 输出 的 例子 。 


1 # at 277 
2 #071030 10:47:21 server id 3 end_log_pos 369 Query 
thread_id=13 exec_time=0 
error_code=0 
3 SET TIMESTAMP=1193755641/* !*/; 


4 insert into test(a) values(2)/*!*/; 


第 一 行 包 含 日 志文 件 内 的 偏 移 字 节 值 (本 例 中 为 277) o 


第 二 行 包含 如 下 几 项 。 


事件 的 日 期 和 时 间 ，MySQL 会 使 用 它们 来 产生 SET TIMESTAMP 
语句 。 

原 服 务 器 的 服务 器 ID ， 对 于 防止 复制 之 间 无 限 循环 和 其 他 问题 是 
非常 有 必要 的 。 

end_log_pos， 下 一 个 事件 的 偏 移 字 节 值 。 该 值 对 一 个 多 语句 事务 
中 的 大 部 分 事件 是 不 正确 的 。 在 此 类 事务 过 程 中 ，MySQL 的 主 库 
会 复制 事件 到 一 个 缓冲 区 ， 但 这 样 做 的 时 候 它 并 不 知道 下 个 日 志 
事件 的 位 置 。 

事件 类 型 。 本 例 中 的 类 型 是 Query， 但 还 有 许多 不 同 的 类 型 。 
原 服 务 器 上 执行 事件 的 线程 ID ， 对 于 审计 和 执行 
CONNECTION_ID0O 函 数 很 重要 。 

e exec_time， 这 是 语句 的 时 间 惟 和 写 入 二 进 制 日 志 的 时 间 之 差 。 不 
要 依赖 这 个 值 ， 因 为 它 可 能 在 复制 落后 的 备 库 上 会 有 很 大 的 偏 
差 。 

在 原 服务 器 上 事件 产生 的 错误 代码 。 如 果 事 件 在 一 个 备 库 上 重 放 
时 导致 不 同 的 错误 ， 那 么 复制 将 因 安全 预警 而 失败 。 


后 续 的 行 包含 重 放 变更 时 所 需 的 数据 。 用 户 自 定义 的 变更 和 任何 
其 他 特定 设置 ， 例 如 当 语 句 执行 时 有 效 的 时 间 戳 ， 也 将 会 出 现在 这 
里 。 


ae L 如 果 使 用 的 是 MySQL 54 中 基于 行 的 日 志 ， 事 件 将 不 再 是 SQL。 而 是 可 读 性 较 关 的 


由 语句 对 表 所 做 变更 的 “镜像 ”。 


15.4.2 ”安全 地 清除 老 的 二 进 制 日 志 


需要 决定 日 志 的 过 期 策略 以 防止 磁盘 被 二 进 制 日 志 写 满 。 日 志 增 
长 多 大 取决 于 负载 和 日 志 格 式 《基于 行 的 日 志 会 导致 更 大 的 日 志 记 
R) 。 我 们 建议 ， 如 果 可 能 ， 只 要 日 志 有 用 就 尽 可 能 保留 。 保 留 日 志 
对 于 设置 复制 、 分 析 服务 器 负载 、 审 计 和 从 上 次 全 备 按 时 间 点 进行 恢 
复 ， 都 很 有 帮助 。 当 决定 想 要 保留 日 志 多 久 时 ， 应 该 考虑 这 些 需 求 。 


一 个 常见 的 设置 是 使 用 expire_log_days 变 量 来 告诉 MySQL 定 期 清 
理 日 志 。 这 个 变量 直到 MySQL 4.1 才 引入 ; 在 此 之 前 的 版 本 ， 必 须 手 
动 清理 二 进 制 日 志 。 因 此 ， 你 可 能 看 到 一 些 用 类 似 下 面 的 cron 项 来 删 
除 老 的 二 进 制 日 志 的 建议 。 


© © * * * /usr/bin/find /var/log/mysql -mtime +N-name 


"mysql-bin.[0-9]*" | xargs rm 


尽管 这 是 在 MySQL 4.1 之 前 清除 日 志 的 唯一 办 法 ， 但 在 新 版 本 中 
不 要 这 么 做 ! 用 rm 删除 日 志 会 导致 mysql-bin.index 状 态 文件 与 磁盘 上 的 
文件 不 一 致 ， 有 些 语句 ， 例 如 SHOW MASTER LOGS 可 能 会 受到 影响 
而 悄然 失败 。 手 动 修改 mysql-bin.index 文 件 也 不 会 修复 这 个 问题 。 应 该 
用 类 似 下 面 的 cron 命 令 。 


0 0 * * * /usr/bin/mysql -e "PURGE MASTER LOGS BEFORE 
CURRENT_DATE - INTERVALNDAY" 


expire_logs_days 设 置 在 服务 器 启动 或 MySQL 切 换 二 进 制 日 志 时 生 
效 ， 因 此 ， 如 果 二 进 制 日 志 从 没有 增长 和 切换 ， 服 务 器 不 会 清除 老 条 


目 。 此 设置 是 通过 查看 日 志 的 修改 时 间 而 不 是 内 容 来 决定 哪个 文件 需 
要 被 清除 。 


15.5 ”备份 数据 


大 多 数 时 候 ， 生 成 备份 有 好 的 也 有 差 的 方法 一 一 有 时 候 显而易见 
的 方法 并 不 是 好 方法 。 一 个 有 用 的 技巧 是 应 该 最 大 化 利用 网 络 、 磁 盘 
和 CPU 的 能 力 以 尽 可 能 快 地 完成 备份 。 这 是 一 个 需要 不 断 去 平衡 的 事 
情 ， 必 须 通过 实验 以 找到 “最 佳 平衡 点 ”。 


15.5.1 ”生成 逻辑 备份 


对 于 逻辑 备份 ， 首 先 要 意识 到 的 是 它们 并 不 是 以 同样 方式 创建 
的 。 实 际 上 有 两 种 类 型 的 逻辑 备份 : SQL 导出 和 符号 分 隔 文件 。 


SQL 导出 


SQL 导出 是 很 多 人 所 熟悉 的 ， 因 为 它们 是 mysqldump 默 认 的 方式 。 
例如 ， 用 默认 选项 导出 一 个 小 表 将 产生 如 下 (有 删 减 ) 输出 。 


$ mysqldump test t1 
- [Version and host comments] 
/* 140101 SET 


@OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */; 


-- [More version-specific comments to save options for 
restore] 


-- Table structure for table `t1` 
DROP TABLE IF EXISTS `t1`; 
CREATE TABLE `t1` ( 
~a> int(11) NOT NULL, 
PRIMARY KEY (a) 
) ENGINE=MyISAM DEFAULT CHARSET=latin1; 


-- Dumping data for table `t1` 

LOCK TABLES `t1` WRITE; 

/*140000 ALTER TABLE `t1` DISABLE KEYS */; 
INSERT INTO ‘t1 VALUES (1); 

/*140000 ALTER TABLE `t1` ENABLE KEYS */; 
UNLOCK TABLES; 

/*140103 SET TIME_ZONE=@OLD_TIME_ZONE */; 
/*140101 SET SQL_MODE=@OLD_SQL_MODE */; 


-- [More option restoration] 


导出 文件 包含 表 结 构 和 数据 ， 均 以 有 效 的 SQL 命令 形式 写 出 。 文 
件 以 设置 MySQL 各 种 选项 的 注释 开始 。 这 些 要 么 是 为 了 使 恢复 工作 更 
高 效 ， 要 么 是 因为 兼容 性 和 正确 性 。 接 下 来 可 以 看 到 表 结构 ， 然 后 是 
数据 。 最 后 ， 脚 本 重 置 在 导出 开始 时 变更 的 选项 。 


导出 的 输出 对 于 还 原 操作 来 说 是 可 执行 的 。 这 很 方便 ， 但 
mysqldump 默 认 选 项 对 于 生成 一 个 巨大 的 备份 却 不 是 太 适 合 (后 续 我 
们 会 深入 介绍 mysqldump 的 选项 ) 。 


mysqldurmp 不 是 生成 SQL 逻辑 备份 的 唯一 工具 。 例 如 ， 也 可 以 用 
mydumper 或 phppMyAdmin 工 具 来 创建 Y。 我 们 想 指 出 的 是 ， 不 是 某 一 
个 特定 的 工具 有 多 大 的 问题 ， 而 是 做 SQL 远 辑 备份 本 身 融 有 一 些 缺 
点 。 下 面 是 主要 问题 点 : 


Schema 和 数据 存储 在 一 起 


如 果 想 从 单个 文件 恢复 这 样 做 会 非常 方便 ， 但 如 果 只 想 恢 复 
一 个 表 或 只 想 恢 复数 据 就 很 困难 了 。 可 以 通过 导出 两 次 的 方法 来 
减缓 这 个 问题 一 一 一 次 只 导出 数据 ， 另 外 一 次 只 导出 Schema 
但 还 是 会 有 下 一 个 有 尽 烦 。 


巨大 的 SQL 语句 


服务 器 分 析 和 执行 SQL 语句 的 工作 量 非 常 大 ， 所 以 加 载 数据 
时 会 非常 慢 。 


单个 巨大 的 文件 


大 部 分 文本 编辑 器 不 能 编辑 巨大 的 或 者 包含 非常 长 的 行 的 文 
件 。 尽 管 有 时 候 可 以 用 命令 行 的 流 编辑 器 一 一 例如 sed 或 grep 
来 抽出 需要 的 数据 ， 但 保持 文件 小 型 化 仍然 是 更 合适 的 。 


逻辑 备份 的 成 本 很 高 


比 起 远 辑 备份 这 种 从 存储 引擎 中 读 取 数 据 然后 通过 客户 端 / 服 
务 器 协议 发 送 结果 集 的 方式 ， 还 有 其 他 更 高 效 的 方法 。 


这 些 限制 意味 着 SQL 导 出 在 表 变 大 时 可 能 变 得 不 可 用 。 不 过 ， 还 
有 另外 一 个 选择 : 导出 数据 到 符号 分 隔 的 文件 中 。 


符号 分 隔 文 件 备份 


可 以 使 用 SQL 命 令 SELECT INTO OUTFILE 以 符号 分 隔 文 件 格 式 
创建 数据 的 逻辑 备份 。 (可 以 用 mysqldump 的 --tab 选 项 导出 到 符号 分 隔 
文件 中 ) 。 符 号 分 隔 文 件 包含 以 ASCII 展 示 的 原始 数据 ， 没 有 SQL、 注 
释 和 列 名 。 下 面 是 一 个 导出 为 逗号 分 隔 值 (CVS) 格式 的 例子 ， 对 于 
表格 形式 的 数据 来 说 这 是 一 个 很 好 的 通用 格式 。 


mysql> SELECT * INTO OUTFILE '/tmp/ti.txt' 
-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 
-> LINES TERMINATED BY '\n' 


-> FROM test.t1,; 


比 起 SQL 导出 文件 ， 符 号 分 隔 文 件 要 更 紧凑 且 更 易于 用 命令 行 工 
具 操 作 ， 这 种 方法 最 大 的 优点 是 备份 和 还 原 速 度 更 快 。 可 以 和 导出 时 
使 用 一 样 的 选项 ， 用 LOAD DATA INEFILE 方 法 加 载 数据 到 表 中 : 


mysql> LOAD DATA INFILE '/tmp/t1i.txt' 


-> INTO TABLE test.t1 


-> FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' 


-> LINES TERMINATED BY '\n'; 


下 面 这 个 非 正式 的 测试 演示 了 SQL 文件 和 符号 分 隔 文 件 在 备份 和 
还 原 上 的 速度 差异 。 在 测试 中 ， 我 们 对 生产 数据 做 了 些 修改 。 导 出 的 
表 看 起 来 像 下 面 这 样 : 


CREATE TABLE load_test ( 


coli 
col2 
col3 
col4 
col5 
col6 
col7 
cols 


col9 


date NOT NULL, 

int NOT NULL, 

smallint unsigned NOT NULL, 
mediumint NOT NULL, 

mediumint NOT NULL, 

mediumint NOT NULL, 

decimal(3,1) default NULL, 
varchar(10) NOT NULL default '', 


int NOT NULL, 


PRIMARY KEY (coli, col2) 


) ENGINE= 


InnoDB; 


这 张 表 有 1500 万 行 ， 占 用 近 700MB 的 磁盘 空间 。 表 15-1 对 比 了 两 
种 备份 和 还 原 方 法 的 性 能 。 可 以 看 到 测试 中 还 原 时 间 有 较 大 的 差异 。 


表 15-1: SQL 和 符号 分 隔 导 出 所 用 的 备份 和 恢复 时 间 


方法 。 | 导出 大 小 导出 时 间 还 原 时 间 
| | 


| SQL 导出 | [727MB | MB 


669 MB 


是 SELECT INTO OUTFILE 方 法 也 有 一 些 限制 。 


。 只 能 备份 到 运行 MySQL 服 务 器 的 机 器 上 的 文件 中 。 (可 以 写 一 人 1 
自 定义 的 SELECT INTO OUTFILE 程 序 ， 在 读 取 SELECT 结 果 的 同 
时 写 到 磁盘 文件 中 ， 我 们 已 经 看 到 有 些 人 采用 这 种 方法 。) 

运行 MySQL 的 系统 用 户 必 须 有 文件 目录 的 写 权 限 ， 因 为 是 由 
MySQL 服 务 器 来 执行 文件 的 写 入 ， 而 不 是 运行 SQL 命 令 的 用 户 。 
出 于 安全 原因 ， 不 能 覆盖 已 经 存在 的 文件 ， 不 管 文件 权限 如 何 。 
不 能 直接 导出 到 压缩 文件 中 。 

。 某 些 情况 下 很 难 进 行 正确 的 导出 或 导入 ， 例 如 非 标 准 的 字符 集 。 


15.5.2 ”文件 系统 快照 


文件 系统 快照 是 一 种 非常 好 的 在 线 备份 方法 。 支 持 快照 的 文件 系 
统 能 够 瞬间 创建 用 来 备份 的 内 容 一 致 的 镜像 。 支 持 快照 的 文件 系统 和 
设备 包括 FreeBSD 的 文件 系统 、ZFS 文 件 系统 、GNU/Linux 的 逻辑 卷 管 
理 (LVM) ， 以 及 许多 的 SAN 系 统 和 文件 存储 解决 方案 ， 例 如 NetApp 
存储 。 


不 要 把 快照 和 备份 相 混淆 。 创 建 快 照 是 减少 必须 持 有 锁 的 时 间 的 
一 个 简单 方法 ; 释放 锁 后 ， 必 须 复制 文件 到 备份 中 。 事 实 上 ， 有 些 时 
候 甚至 可 以 创建 mnoDB 快 照 而 不 需要 锁定 。 我 们 将 要 展示 两 种 使 用 


LVM 来 对 ImnoDB 文 件 系统 做 备份 的 方法 ， 可 以 选择 最 小 化 锁 或 零 锁 的 


方案 。 


快照 对 于 特别 用 途 的 备份 是 一 个 非常 好 的 方法 。 一 个 例子 是 在 升 
级 过 程 中 遇 到 有 问题 而 回 退 的 情况 。 可 以 在 升级 前 创建 一 个 镜像 ， 这 
样 如 果 升 级 有 问题 ， 只 需要 回 滚 到 该 镜像 。 可 以 对 任何 不 确定 和 有 风 
险 的 操作 都 这 么 做 ， 例 如 对 一 个 巨大 的 表 做 变更 〈 需 要 多 少时 间 是 未 
知 的 ) 。 


LVM 快 照 是 如 何 工 作 的 


LVM 使 用 写 时 复制 (copy-on-write) 的 技术 来 创建 快照 例 
如 ， 对 整个 卷 的 某 个 瞬间 的 逻辑 副本 。 这 与 数据 库 中 的 MVCC 有 点 
像 ， 不 同 的 是 它 只 保留 一 个 老 的 数据 版 本 。 


注意 ， 我 们 说 的 不 是 物理 副本 。 逻 辑 副 本 看 起 来 好 像 包 含 了 创建 
快照 时 卷 中 所 有 的 数据 ， 但 实际 上 一 开始 快照 是 不 包含 数据 的 。 相 比 
复制 数据 到 快照 中 ，LVM 只 是 简单 地 标记 创建 快照 的 时 间 点 ， 然 后 对 
该 快照 请 求 读数 据 时 ， 实 际 上 是 从 原始 卷 中 读 取 的 。 因 此 ， 初 始 的 复 
制 基本 上 是 一 个 瞬间 就 能 完成 的 操作 ， 不 管 创建 快照 的 卷 有 多 大 。 


当 原 始 卷 中 某 些 数据 有 变化 时 ，LVM 在 任何 变更 写 入 之 前 ， 会 复 
制 受 影响 的 块 到 快照 预 留 的 区 域 中 。LVM 不 保留 数据 的 多 个 “ 老 版 
本 ”， 因 此 对 原始 卷 中 变更 块 的 额外 写 入 并 不 需要 对 快照 做 其 他 更 多 的 
工作 。 换 句 话说 ， 对 每 个 块 只 有 第 一 次 写 入 才 会 导致 写 时 复制 到 预 贸 
的 区 域 。 


现在 ， 在 快照 中 请 求 这 些 块 时 ，LVM 会 从 复制 块 中 而 不 是 从 原始 
卷 中 读 取 。 所 以 ， 可 以 继续 看 到 快照 中 相同 时 间 点 的 数据 而 不 需要 阻 
塞 任何 原始 卷 。 图 15-1 描 述 了 这 个 方案 。 


图 15-1: 写 时 复制 技术 如 何 减 少 单个 卷 快照 需要 的 大 小 


快照 会 在 /dev 目 录 下 创建 一 个 新 的 逻辑 卷 ， 可 以 像 挂 载 其 他 设备 
一 样 挂 载 它 。 


理论 上 讲 ， 这 种 技术 可 以 对 一 个 非常 大 的 卷 做 快照 ， 而 只 需要 非 
单 少 的 物理 存储 空间 。 但 是 ， 必 须 设 置 足够 的 空间 ， 保 证 在 快照 打开 
时 ， 和 能够 保存 所 有 期 望 在 原始 疮 上 更 新 的 块 。 如 果 不 预 留 足够 的 写 时 
复制 空间 ， 当 快照 用 完 所 有 的 空间 后 ， 设 备 就 会 变 得 不 可 用 。 这 个 影 
响 就 像 拔 出 一 个 外 部 设备 : 任何 从 设备 上 读 的 备份 工作 都 会 因 I/O 错 误 
而 失败 。 


先决 条 件 和 配置 


创建 一 个 快照 的 消耗 几乎 微不足道 ， 但 还 是 需要 确保 系统 配置 可 
以 让 你 获取 在 备份 瞬间 的 所 有 需要 的 文件 的 一 致 性 副本 。 首 先 ， 确保 


系统 满足 下 面 这 些 条 件 。 


。 所 有 的 InnoDB 文 件 (InnoDB 的 表 空 间 文 件 和 InnoDB 的 事务 日 
T) 必须 是 在 单个 逻辑 卷 (DK) 。 你 需要 绝对 的 时 间 点 一 致 
性 ，LVM 不 能 为 多 于 一 个 卷 做 某 个 时 间 点 一 致 的 快照 。 (这 是 
LVM 的 一 个 限制 ， 其 他 一 些 系 统 没 有 这 个 问题 。) 

。 如 果 需 要 备份 表 定 义 ，MySQL 数 据 目 录 必 须 在 相同 的 逻辑 卷 中 。 
如 果 使 用 另外 一 种 方法 来 备份 表 的 定义 ， 例 如 只 备份 Schema 到 版 
本 控制 系统 中 ， 融 不 需要 担心 这 个 问题 。 

。 必须 在 卷 组 中 有 足够 的 空 内 空间 来 创建 快照 。 需 要 多 少 取决 于 负 
载 。 当 配置 系统 时 ， 应 该 留 一 些 未 分 配 的 空间 以 便 后 面 做 快照 。 


LVM 有 卷 组 的 概念 ， 它 包含 一 个 或 多 个 逻辑 卷 。 可 以 按照 如 下 的 
方式 查看 系统 中 的 卷 组 : 


# vgs 
VG #PV #LV #SN Attr VSize VFree 


vg 1 4 0 wZ--n- 534.18G 249.18G 


输出 显示 了 一 个 分 布 在 一 个 物理 卷 上 的 卷 组 ， 它 有 四 个 逻辑 卷 ， 
大 概 有 250GB 空 间 空 举 。 如 果 需 要 ， 可 用 vgdisplay 命 令 产生 更 详细 的 
输出 。 现 在 让 我 们 看 一 下 系统 上 的 逻辑 卷 : 


# lvs 
LV VG Attr LSize Origin Snap% Move Log Copy% 
home vg -wi-ao 40.00G 


mysql vg -Wi-ao 225.00G 
tmp vg -wi-ao 10.00G 


var vg -Wi-ao 10.00G 


输出 显示 mysql 卷 有 225GB 的 空间 。 设 备 名 是 /dev/vg/mysql。 这 仅 
是 个 名 字 ， 尽 管 看 起 来 像 一 个 文件 系统 路 径 。 更 加 让 人 困惑 的 是 ， 还 
有 个 符号 链接 从 相同 名 字 的 文件 链 到 /dev/mapperWg-mysql 的 设备 节 
点 ， 用 1s 和 mount 命 令 可 以 观察 到 。 


# ls -1 /dev/vg/mysql 
lrwxrwxrwx 1 root root 20 Sep 19 13:08 /dev/vg/mysql -> 
/dev/mapper/vg-mysql 
# mount | grep mysql 


/dev/mapper/vg-mysql on /var/lib/mysql 


有 了 这 个 信息 ， 就 可 以 创建 文件 系统 快照 了 。 


创建 、 挂 载 和 删除 LVM 快 照 


一 条 命令 就 能 创建 快照 。 只 需要 决定 快照 存放 的 位 置 和 分 配给 写 
时 复制 的 空间 大 小 即 可 。 不 要 纠结 于 是 否 使 用 比 想象 中 的 需求 更 多 的 
空间 。LVM 不 会 马上 使 用 完 所 有 指定 的 空间 ， 只 是 为 后 续 使 用 预 留 而 
已 。 因 此 多 预 留 一 点 空间 并 没有 坏处 ， 除 非 你 必须 同时 为 其 他 快照 预 


留 空 间 。 


让 我 们 来 练习 创建 一 个 快照 。 我 们 给 它 16GB 的 写 时 复制 空间 ， 名 
+ Abackup_mysqlo 


# lvcreate --size 16G --snapshot --name backup_mysql 
/dev/vg/mysql 


Logical volume "backup_mysql" created 


从 | 这 里 特意 命名 为 backup_mysql 卷 而 不 是 mysql_backup ， 是 为 了 避免 Tab 键 自动 补 全 


ds 
造成 误会 。 这 有 助 于 避免 因为 Tab 键 自动 补 全 导致 突然 误 删 除 mysql 卷 组 的 可 能 。 


现在 让 我 们 看 看 新 创建 的 卷 的 状态 。 


# lvs 
LV VG Attr LSize Origin Snap% Move Log 
Copy% 
backup_mysql vg SWi-a- 16.00G mysql 0.01 


home vg -Wi-ao 40.00G 
mysql vg Owi-ao 225.00G 
tmp vg -Wi-ao 10.00G 
var vg -Wi-ao 10.00G 


可 以 注意 到 ， 快 照 的 属性 与 原 设备 不 同 ， 而 且 该 输出 还 显示 了 一 
息 : 原始 卷 组 和 分 配 了 16GB 的 写 时 复制 空间 目 deca 

多 少 。 备 份 时 对 此 进行 监控 是 个 非常 好 的 主意 ， 可 以 知道 是 否 
ee 可 以 交互 地 监控 设备 的 状态 ， 或 使 用 诸如 
Nagios 这 样 的 监控 系统 。 


# watch 'lvs | grep backup' 


从 前 面 mount 的 输出 可 以 看 到 ，mysql 卷 包含 一 个 文件 系统 。 这 意 
味 着 快照 也 同样 如 此 ， 可 以 像 其 他 文件 系统 一 样 挂 载 。 


# mkdir /tmp/backup 
# mount /dev/mapper/vg-backup_mysql /tmp/backup 
# ls -1 /tmp/backup/mysql 
total 5336 
-rw-r----- 1 mysql mysql 0 Nov 17 2006 
columns_priv.MYD 
-rw-r----- 1 mysql mysql 1024 Mar 24 2007 
columns_priv.MYI 


-rw-r----- 1 mysql mysql 8820 Mar 24 2007 


columns_priv.frm 


-rw-r----- 1 mysql mysql 10512 Jul 12 10:26 db.MYD 
-rw-r----- 1 mysql mysql 4096 Jul 12 10:29 db.MYI 
-rw-r----- 1 mysql mysql 9494 Mar 24 2007 db.frm 

. omitted ... 


BREA SAS, Ae Eee ex MRR HA lvremove ts g I4 
其 删除 。 


# umount /tmp/backup 
# rmdir /tmp/backup 
# lvremove --force /dev/vg/backup_mysql 


Logical volume "backup_mysql" successfully removed 


用 于 在 线 备份 的 LVM 快 照 


现在 已 经 知道 如 何 创建 、 加 载 和 删除 快照 ， 可 以 使 用 它们 来 进行 
备份 了 。 首 先 看 一 下 如 何在 不 停止 MySQL 服 务 的 情况 下 备份 ImnoDB 数 
据 库 ， 这 里 需要 使 用 一 个 全 局 的 读 锁 。 连 接 MySQL 服 务 器 并 使 用 一 个 
全 局 读 锁 将 表 刷 到 磁盘 上 ， 然 后 获取 二 进 制 日 志 的 位 置 : 


mysql> FLUSH TABLES WITH READ LOCK; SHOW MASTER STATUS; 


记录 SHOW MASTER STATUS 的 输出 ， 确 保 到 MySQL 的 连接 处 于 
打开 状态 ， 以 使 读 锁 不 被 释放 。 然 后 获取 LVM 的 快照 并 立刻 释放 该 读 
锁 ， 可 以 使 用 UNLOCK TABLES 或 者 直接 关闭 连接 来 释放 锁 。 最 后 ， 
加 载 快照 并 复制 文件 到 备份 位 置 。 


这 种 方法 最 主要 的 问题 是 ， 获 取 读 锁 可 能 需要 一 点 时 间 ， 特 别 是 
当 有 许多 长 时 间 运 行 的 查询 时 。 当 连接 等 待 全 局 读 锁 时 ， 所 有 的 查询 
都 将 被 阻塞 ， 并 且 不 可 预测 这 会 持续 多 久 。 


文件 系统 快照 和 InnoDB 


即使 锁 住 所 有 的 表 ，InnoDB 的 后 人 台 绪 程 仍 会 继续 工作 ， 因 此 ， 
即使 在 创建 快照 时 ， 仍 然 可 以 往 文件 中 写 入 。 并 且 ， 由 于 InnoDB 没 
有 执行 关闭 操 作 ， 如 果 服 务 器 意外 断 电 ， 人 快照 中 InnoDB 的 文件 会 和 
服务 器 意外 挤 电 后 文件 的 遭遇 一 样 。 


这 不 是 什么 问题 ， 因 为 InnoDB 是 个 ACID 系统 。 任 何 时 刻 (B 
如 快照 时 ) ， 每 个 提交 的 事务 要 么 在 ImnoDB 数 据 文件 中 要 么 在 日 志 
文件 中 。 在 还 原 快 照 后 启动 MySQL 时 ，InnoDB 将 运行 恢复 进程 ， 
就 像 服务 器 断 过 电 一 样 。 它 会 查找 事务 日 志 中 任何 提交 但 没有 应 用 
到 数据 文件 中 的 事务 然后 应 用 ， 因 此 不 会 丢失 任何 事务 。 这 正 是 要 
强制 InnoDB 数 据 文件 和 日 志文 件 在 一 起 快照 的 原因 。 


这 也 是 在 备份 后 需要 测试 的 原因 。 启 动 一 个 MySQL 实 例 ， 把 它 
指向 一 个 新 备份 ， 让 InnoDB 执 行 衣 并 恢复 过 程 ， 然 后 检测 所 有 的 
表 。 通 过 这 种 方法 ， 就 不 会 备份 损坏 了 却 还 不 知道 (文件 可 能 由 于 
任何 原因 损坏 ) 。 这 么 做 的 另外 一 个 好 处 是 ， 未 来 需要 从 备份 中 还 
原 时 会 更 快 ， 因 为 已 经 在 备份 上 运行 过 一 遍 恢 复 程序 了 。 


甚至 还 可 以 在 将 快照 复制 到 备份 目的 地 之 前 ， 直 接 在 快照 上 做 
上 面 的 操作 ， 但 增加 一 点 点 额外 开销 。 所 以 需要 确保 这 是 计划 内 的 
操作 。 (后 面 会 有 更 多 说 明 。) 


使 用 LVM 快 照 无 锁 InnoDB 备 份 


无 锁 备份 只 有 一 点 不 同 。 区 别 是 不 需要 执行 FLUSH TABLES 
WITH READ LOCK。 这 意味 着 不 能 保证 MyISAM 文 件 在 磁盘 上 一 致 ， 
如 果 只 使 用 InnoDB， 这 就 不 是 问题 。mysql 系 统 数据 库 中 依然 有 部 分 
MyISAM 表 ， 但 如 果 是 典型 的 工作 负载 ， 在 快照 时 这 些 表 不 太 可 能 发 
生 改 变 。 


如 果 你 认为 mysql 系 统 表 可 能 会 变更 ， sania ital 
表 。 一 般 不 会 对 这 些 表 有 长 时 间 运 行 的 查询 ， 所 以 通 单 会 很 快 。 


mysql> LOCK TABLES mysql.user READ, mysql.db READ, ...; 
mysql> FLUSH TABLES mysql.user, mysql.db, ...; 


由 于 没有 用 全 局 读 锁 ， 因 此 不 会 从 SHOW MASTER STATUS 中 获 
到 任何 有 用 的 信息 。 尽 管 如 此 ， 基 于 快照 启动 MySQL (来 验证 备份 
的 完整 性 ) 时 ， 也 将 会 在 日 志文 件 中 看 到 像 下 面 的 内 容 。 


InnoDB: Doing recovery: scanned up to log sequence number 0 
40817239 
InnoDB: Starting an apply batch of log records to the 
database... 
InnoDB: Progress in percents: 3 4 5 6 ...[omitted]... 97 98 
99 
InnoDB: Apply batch completed 
InnoDB: Last MySQL binlog file position 0 3304937, file 
name 
/var/log/mysql/mysql-bin.000001 
070928 14:08:42 InnoDB: Started; log sequence number 0 


40817239 


ne en yar 已 经 恢复 的 AY Ta) 对 应 的 二 一 进 进 制 | 日 志 位 置 。 
这 个 二 进 制 日 志 位 置 可 以 用 来 做 基于 时 间 点 的 恢复 。 


使 用 快照 进行 无 锁 备 份 的 方法 在 MySQL 5.0 或 更 新 版 本 中 有 变 
动 。 这 些 MySQL 版 本 使 用 XA 来 协调 InnoDB 和 二 进 制 日 志 。 如 果 还 原 
到 一 个 与 备份 时 server_ id 不同 的 服务 器 ， 服 务 器 在 准备 事务 阶段 可 能 
发 现 这 是 从 另外 一 个 与 自己 有 不 同 ID 的 服务 器 来 的 。 在 这 种 情况 下 ， 
服务 器 会 变 得 困惑 ， 恢 复 事 务 时 可 能 会 卡 在 PREPARED 状 态 。 这 种 情 
况 很 少 发 生 ， 但 是 存在 可 能 性 。 这 也 是 只 有 经 过 验证 才 可 以 说 备份 成 
功 的 原因 。 有 些 备份 也 许 是 不 能 恢复 的 。 


如 果 是 在 备 库 上 获取 快照 ，InnoDB 恢 复 时 还 会 打印 如 下 几 行 日 


InnoDB: In a MySQL replica the last master binlog file 


InnoDB: position © 115, file name mysql-bin.001717 


输出 显示 了 InnoDB 已 经 恢复 的 基于 主 库 的 二 进 制 日 志 位 置 (相对 
于 备 库 二 进 制 日 志 位 置 ) ， 这 对 于 基于 备 库 备 份 或 基于 其 他 备 库 克 隆 
备 库 来 说 非常 有 用 。 


规划 LVM 备 份 


LVM 快 照 备份 也 是 有 开销 的 。 服 务 器 写 到 原始 卷 的 越 多 ，3 引 发 的 
额外 开销 也 越 多 。 当 服务 器 随机 修改 许多 不 同 块 时 ， 磁 头 需 要 目 写 时 
复制 空间 来 来 回回 寻 址 ， 并 且 将 数据 的 老 版 本 写 到 写 时 复制 空间 。 从 
快照 中 读 取 也 有 开销 ， 因 为 LVM 需 要 从 原始 卷 中 读 取 大 部 分 数据 。 只 
有 快照 创建 后 修改 过 的 数据 从 写 时 复制 空间 读 取 ; ALC, ISHII iz 
取 快 照 数 据 实际 上 也 可 能 导致 磁头 来 回 移动 。 


所 以 应 该 为 此 规划 好 快照 。 快 照 实 际 上 会 导致 原始 卷 和 快照 都 比 


正常 的 读 / 写 性 能 要 差 一 一 如 果 使 用 过 多 的 写 时 复制 空间 ， 性 能 可 能 会 
差 很 多 。 这 会 降低 MySQL 服 务 器 和 复制 文件 进行 备份 的 性 能 。 我 们 做 
了 基准 测试 ， 发 现 LVM 快 照 的 开销 要 远 高 于 它 本 应 该 有 的 一 一 我 们 发 
现 性 能 最 多 可 能 会 慢 5 倍 ， 具 体 取 决 于 负载 和 文件 系统 。 在 规划 备份 时 
要 记得 这 一 点 。 


规划 中 另外 一 个 重要 的 事情 是 ， 为 快照 分 配 足 够 多 的 空间 。 我 们 


一 般 采 取 下 面 的 方法 。 


记 住 ，LVM 只 需要 复制 每 个 修改 块 到 快照 一 次 。MySQL 写 一 个 块 

到 原始 卷 中 时 ， 它 会 复制 这 个 块 到 快照 中 ， 然 后 对 复制 的 块 在 例 

外 表 中 生成 一 个 标记 。 后 续 对 这 个 块 的 写 不 会 产生 任何 到 快照 的 

复制 。 

如 果 只 使 用 mnoDB ， 要 考虑 InnoDB 是 如 何 写 数据 的 。InnoDB 实 

际 需 要 对 数据 写 两 遍 ， 至 少 一 半 的 InnoDB 的 写 IO 会 到 双 写 缓冲 
(doublewrite buffer) 、 日 志文 件 ， 以 及 其 他 磁盘 上 相对 小 的 区 域 

中 。 这 部 分 会 多 次 重用 相同 的 磁盘 块 ， 因 此 第 一 次 时 对 快照 有 影 

响 ， 但 写 过 一 次 以 后 融 不 会 对 快照 市 来 写 讨 力 。 

接 下 来 ， 相 对 于 反复 修改 同样 的 数据 ， 需 要 评估 有 多 少 IO 需要 与 
到 那些 还 没有 复制 到 快照 写 时 复制 空间 的 块 中 ， 对 评估 的 结果 

要 保留 足够 的 余 量 。 

使 用 vmstat 或 iostat 来 收集 服务 器 每 秒 写 多 少 块 的 统计 信息 。 

衡量 (或 评估 ) 复制 备份 到 其 他 地 方 需要 多 久 。 换 言 之 ， 需 要 在 

复制 期 间 保持 LVM 快 照 打 开 多 长 时 间 。 


假设 评估 出 有 一 半 的 写 会 导致 往 快 照 的 写 时 复制 空间 的 写 操 作 ， 


并 且 服 务 器 支持 10OMB/s 的 写 入 。 如 果 需 要 一 个 小 时 (3600s) 将 快照 


复制 到 另外 一 个 服务 器 上 ， 那 么 将 需要 1/2x10MBx3600 即 18GB 的 快照 
空间 。 考 虑 到 容错 ， 还 要 增加 一 些 额外 的 空间 。 


有 时 候 当 快照 保持 打开 时 ， 很 容易 计算 会 有 多 少数 据 发 生 改 变 。 
让 我 们 看 个 例子 。BoardReader 论 坛 搜 索引 擎 每 个 存储 节点 有 约 1TB 的 
InnoDB 表 。 但 是 ， 我 们 知道 最 大 的 开销 是 加 载 新 数据 。 每 天 新 增 近 
10GB 的 数据 ， 因 此 50GB 的 快照 空间 应 该 完全 足够 。 然 而 这 样 来 评估 
并 不 总 是 正确 的 。 假 设 在 某 个 时 间 点 ， 有 一 个 长 时 间 运 行 的 依次 修改 
每 个 分 片 的 ALTER TABLE 操 作 ， 它 会 修改 超过 50GB 的 数据 ， 在 这 个 
时 间 点 ， 就 不 能 做 备份 操作 。 为 了 避免 这 样 的 问题 ， 可 以 稍 后 再 创建 
快照 ， 因 为 创建 快照 后 会 导致 一 个 负载 的 高 峰 。 


备份 误区 2 : “快照 就 是 备份 ” 


一 个 快照 ， 不 论 是 LVM 快 照 、ZFS 快 照 ， 还 是 SAN 快 照 ， 都 不 
是 实际 的 备份 ， 因 为 它 不 包含 数据 的 完整 副本 。 正 因为 快照 是 写 时 
复制 的 ， 所 以 它 只 包含 实际 数据 和 快照 发 生 的 时 间 点 的 数据 之 间 的 
差异 数据 。 如 果 一 个 没有 被 修改 的 块 在 备份 副本 时 被 损坏 ， 那 就 没 
有 该 块 的 正常 副本 可 以 用 来 恢复 ， 并 且 备 份 副 本 时 每 个 快照 看 到 的 
都 是 相同 的 损坏 的 块 。 可 以 使 用 快照 来 “冻结 ”备份 时 的 数据 ， 但 不 
要 把 快照 当 作 一 个 备份 。 


快照 的 其 他 用 途 和 蔡 代 方案 


快照 有 更 多 的 其 他 用 途 ， 而 不 仅仅 用 于 备份 。 例 如 ， 之 前 提 到 ， 
在 一 个 有 潜在 危险 的 动作 之 前 生成 一 个 “检查 点 ”会 有 帮助 。 有 些 系统 
允许 将 快照 提升 为 原文 件 系统 ， 这 使 得 回 滚 到 生成 快照 的 时 间 点 的 数 
据 非 党 简单 。 


文件 系统 快照 不 是 取得 数据 瞬间 副本 的 唯一 方法 。 另 外 一 个 选择 
是 RAID 分 裂 : 举 个 例子 ， 如 果 有 一 个 三 磁盘 的 软 RAID 镜 像 ， 就 可 以 
从 该 RAID 组 中 移出 来 一 个 磁盘 单独 加 载 。 这 样 做 没有 写 时 复制 的 代 
价 ， 并 且 需 要 时 将 此 类 “快照 ”提升 为 主 副本 的 操作 也 很 简单 。 不 错 ， 
如 果 要 将 磁盘 加 回 到 RAID 集 合 ， 就 必须 重新 进行 同步 。 当 然 ， 天 下 没 
有 免费 的 午餐 。 


15.6 ”从 备份 中 恢复 


如 何 恢复 数据 取决 于 是 怎么 备份 的 。 可 能 需要 以 下 部 分 或 全 部 步 


IRo 


。 停止 MySQL 服 务 器 。 

。 记录 服务 器 的 配置 和 文件 权限 。 

。 将 数据 从 备份 中 移 到 MySQL 数 据 目录 。 

。 改变 配置 。 

。 改变 文件 权限 。 

。 以 限制 访问 模式 重启 服务 器 ， 等 待 完 成 启动 。 
。 载 入 逻辑 备份 文件 。 

。 检查 和 重 放 二 进 制 日 志 。 

。 检测 已 经 还 原 的 数据 。 

。 以 完全 权限 重启 服务 器 。 


我 们 在 接 下 来 的 章节 中 将 演示 这 些 步骤 的 具体 操作 。 我 们 也 会 对 
本 节 及 本 章 后 面 几 节 提 及 的 一 些 特殊 的 备份 方法 和 工具 做 一 些 解释 。 


Kay URE 机 会 使 用 文件 的 当前 版 本 ， 就 不 要 用 备份 中 的 文件 来 代替 。 例 如 ， 如 果 


备份 包含 二 进 制 日 志 ， 并 且 需 要 重 放 这 些 日 志 来 做 基于 时 间 点 的 恢复 ， 那 么 不 要 把 当前 二 进 
制 日 志 用 备份 中 的 老 的 副本 替代 。 如 果 有 需要 ， 可 以 将 其 重 命名 或 移动 到 其 他 地 方 。 


在 恢复 过 程 中 ， 保 证 MySQL 除 了 恢复 进程 外 不 接受 其 他 访问 ， 这 
一 点 往往 比较 重要 。 我 们 喜欢 以 --skip-networking 和 -- 
socket=/tmp/mysql_recover.sock 选 项 来 启动 MySQL， 以 确保 它 对 于 已 经 
存在 的 应 用 不 可 访问 ， 直 到 我 们 检测 完 并 重新 提供 服务 。 这 对 于 按 块 
加 载 的 逻辑 备份 的 恢复 来 说 尤其 重要 。 


15.6.1 ”恢复 物理 备份 


恢复 物理 备份 往往 非常 直接 一 一 换言之 ， 没 有 太 多 的 选项 。 这 可 
能 是 好 事 ， 也 可 能 是 坏事 ， 有 具体 取决 于 恢复 的 需求 。 一 般 过 程 是 简单 
地 复制 文件 到 正确 位 置 。 


是 否 需要 关闭 MySQL 取 决 于 人 存储 引擎 。MyISAM 的 文件 一 般 相 互 
独立 ， 即 使 服务 器 正在 运行 ， 简 单 地 复制 每 个 表 的 .frm、.MYI 和 .MYD 
文件 也 可 以 正常 操作 。 一 旦 有 任何 对 此 表 的 查询 ， 或 者 其 他 会 导致 服 
务 器 访问 此 表 的 操作 (例如 ， 执 行 SHOW TABLES) , MySQL 都 会 立 
刻 找 到 这 些 表 。 如 果 在 复制 这 些 文件 时 表 是 打开 的 ， 可 能 会 有 麻烦 ， 
因此 操作 前 要 么 删除 或 重 命名 该 表 ， 要 么 使 用 LOCK TABLES 和 
FLUSH TABLES 来 关闭 它 。 


InnoDB 的 情况 有 所 不 同 。 如 果 用 传统 的 mmnnoDB 的 步骤 来 还 原 ， 即 
所 有 表 都 存储 在 单个 表 空 间 ， 就 必须 关闭 MySQL ， 复 制 或 移动 文件 到 
正确 位 置 上 ， 然 后 重启 。 同 样 也 需要 InnoDB 的 事务 日 志文 件 与 表 空间 
文件 匹配 。 如 果 文 件 不 匹配 一 一 例如 ， 蔡 换 了 表 空 间 文 件 但 没有 替换 
事务 日 志文 件 一 一 InnoDB 将 会 拒绝 启动 。 这 也 是 将 日 志和 数据 文件 一 
起 备份 非常 关键 的 一 个 原因 。 


如 果 使 用 InnoDB file-perrtable 特 性 (innodb file per table) ， 
InnoDB 会 将 每 个 表 的 数据 和 索引 存储 于 一 个 .ibd 文 件 中 ， 这 就 像 
MyISAM 的 .MYI 和 .MYD 文 件 合 在 一 起 。 可 以 在 服务 器 运行 时 通过 复制 
这 些 文件 来 备份 和 还 原单 个 表 ， 但 这 并 不 像 MyI SAM 中 那样 简单 。 这 
些 文件 并 不 完全 独立 于 InnoDB。 每 个 .ibd 文 件 都 有 一 些 内 部 的 信息 ， 
保存 着 它 与 主 (HE) 表 空 间 之 间 的 关系 。 在 还 原 这 样 的 文件 时 ， 需 
要 让 InnoDB 先 “导入 ”这 个 文件 。 


这 个 过 程 有 许多 的 限制 ， 如 果 有 需要 可 以 阅读 MySQL 用 户 手册 中 
关于 每 个 表 使 用 独立 表 空 间 中 的 部 分 。 最 大 的 限制 是 只 能 在 当初 备份 
的 服务 器 上 还 原单 个 表 。 用 这 种 配置 来 备份 和 还 原 多 个 表 不 是 不 可 
能 ， (HPJ E 比 想象 的 要 更 杯 手 。 


A 4 
制 |， 例如 同一 服务 器 的 限制 。 


Percona Server 和 Percona XtraBackup 有 一 些 改 进 ， 放 宽 了 部 分 关于 这 个 过 程 的 限 


所 有 这 些 复杂 度 意 味 着 还 原 物 理 备份 会 非常 之 味 ， 并 且 容 易 出 
错 。 一 个 好 的 值得 倡导 的 规则 是 ， 恢 复 过 程 越 难 越 复杂 ， 也 就 越 需要 
逻辑 备份 的 保护 。 为 了 防止 一 些 无 法 意料 的 情况 或 者 某 些 无 法 使 用 物 
理 备份 的 场景 ， 准 备 好 逻辑 备份 总 是 值得 推荐 的 。 


还 原 物理 备份 后 启动 MySQL 


在 启动 正在 恢复 的 MYSQL 服务 器 之 前 ， 还 有 些 步骤 要 做 。 


首先 ， 最 重要 且 最 容易 忘记 的 事情 ， 是 在 启动 MySQL 服 务 器 之 前 
检查 服务 器 的 配置 ， 确 保 恢复 的 文件 有 正确 的 归属 和 权限 。 这 些 属性 
必须 完全 正确 ， 否 则 MySQL 可 能 无 法 启动 。 这 些 属 性 因 系统 的 不 同 而 
不 同 ， 因 此 要 仔细 检查 是 否 和 之 前 做 的 记录 吻合 。 一 般 都 需要 mysq! 用 
户 和 组 拥有 这 些 文件 和 目录 ， 并 且 只 有 这 个 用 户 和 组 拥有 可 读 / 写 权 
限 。 


建议 观察 MySQL 启 动 时 的 错误 日 志 。 在 UNIX 类 系统 上 ， 可 以 如 
下 观察 文件 。 


$ tail -f /var/log/mysql/mysql.err 


注意 错误 日 志 的 准确 位 置 会 有 所 不 同 。 一 旦 开始 监测 文件 ， 就 可 
以 局 动 MySQL 服 务 器 并 监测 错误 。 如 果 一 切 进展 顺利 ，MySQL 启 动 
后 项 有 一 个 恢复 好 的 效 据 库 服务 器 了 。 


观察 错误 日 志 对 于 新 的 MySQL 版 本 更 为 重要 。 老 版 本 在 InnoDB 有 

销 时 不 会 启动 ， 但 新 版 本 不 管 怎 样 都 会 启动 ， 而 只 是 让 InnoDB 失 效 。 

即使 服务 器 看 起 来 启动 没有 任何 问题 ， 也 应 该 对 每 个 数据 库 运 行 
SHOW TABLE STATUS 来 再 次 检测 错误 日 志 。 


15.6.2 ”还 原 逻 辑 备份 


如 果 还 原 的 是 逻辑 备份 而 不 是 物理 备份 ， 则 与 使 用 操作 系统 简单 
地 复制 文件 到 适当 位 置 的 方式 不 同 ， 需 要 使 用 MySQL 服 务 器 本 身 来 加 
载 数 据 到 表 中 。 


在 加 载 导 出 文件 之 前 ， 应 该 先 花 一 点 时 间 考 虑 文件 有 多 大 ， 需 要 
多 久 加 载 完 ， 以 及 在 启动 之 前 还 需要 做 什么 事情 ， 例 如 通知 用 户 或 禁 
掉 部 分 应 用 。 禁 掉 二 进 制 日 志 也 是 个 好 主意 ， 除 非 需要 将 还 原 操作 复 
制 到 备 库 : 服务 器 加 载 一 个 巨大 的 导出 文件 的 代价 很 高 ， 并 且 写 二 进 
制 日 志 会 增加 更 多 的 (可 能 没有 必要 的 ) 开销 。 加 载 巨 大 的 文件 对 于 
一 些 存 储 引 擎 也 有 影响 。 例 如 ， 在 单个 事务 中 加 载 100GB 效 据 到 
InnoDB 就 不 是 个 好 想法 ， 因 为 巨大 的 回 滚 段 将 会 导致 问题 。 应 该 以 可 
控 大 小 的 块 来 加 载 ， 并 且 逐 个 提交 事务 。 有 两 种 类 型 的 逻辑 备份 ， 所 
以 相应 地 有 两 种 类 型 的 还 原 操 作 。 


加 载 SQL 文件 


如 果 有 一 个 SQL 导 出 文件 ， 它 将 包含 可 执行 的 SQL。 需 要 做 的 就 
是 运行 这 个 文件 。 假 设备 份 Sakila 示 例 数 据 库 和 Schema 到 单个 文件 ， 
下 面 是 用 来 还 原 的 常用 命令 。 


$ mysql < sakila-backup.sql 


也 可 以 从 mysql 命 令 行 客户 端 用 SOURCE 命 令 加 载 文件 。 这 只 是 做 
相同 事情 的 不 同方 法 ， 不 过 该 方法 使 得 某 些 事情 更 简单 。 例 如 ， 如 果 
你 是 MySQL 管 理 用 户 ， 就 可 以 关闭 用 客户 端 连 接 执行 时 的 二 进 制 记 
录 ， 然 后 加 载 文件 而 不 需要 重启 MySQL 服 务 器 。 


mysql> SET SQL_LOG_BIN = 0; 
mysql> SOURCE sakila-backup.sql; 
mysql> SET SQL_LOG_BIN = 1; 


需要 注意 的 是 ， 如 果 使 用 SOURCE ， 当 定向 文件 到 mysqlj 时 ， 默 认 
情况 下 ， 发 生 一 个 错误 不 会 导致 一 批语 句 退出 。 


如 果 备份 做 过 压缩 ， 那 么 不 要 分 别 解压 缩 和 加 载 。 应 该 在 单个 操 
作 中 完成 解压 缩 和 加 载 。 这 样 做 会 快 很 多 。 


$ gunzip -c sakila-backup.sql.gz | mysql 


如 果 想 用 SOURCE 命 令 加 载 一 个 压缩 文件 ， 可 参考 下 节 中 关于 合 
名 管道 的 讨论 。 


如 果 只 想 恢 复 单 个 表 (例如 ，actor 表 ) ， 要 怎么 做 呢 ? 如 果 数 据 
没有 分 行 但 有 schema 信 息 ， 那 么 还 原 数据 并 不 难 。 


$ grep 'INSERT INTO ‘actor’' sakila-backup.sql | mysql 


sakila 


或 者 ， 如 果 文 件 是 压缩 过 的 ， 那 么 命令 如 下 。 


$ gunzip -c sakila-backup.sql.gz | grep "INSERT INTO 


‘actor’'| mysql sakila 


如 果 需 要 创建 表 并 还 原 数 据 ， 而 在 单个 文件 中 有 整个 数据 库 ， 则 
必须 先 编辑 这 个 文件 。 这 也 是 有 一 些 人 喜欢 导出 每 个 表 到 各 自 文件 中 
的 原因 。 大 部 分 编辑 器 无 法 应 付 巨 大 的 文件 ， 尤 其 如 果 它 们 是 压缩 过 
的 。 另 外 ， 也 不 会 想 实 际 地 编辑 文件 本 身 一 一 只 想 抽取 相关 的 行 一 一 
因此 可 能 必须 做 一 些 命令 行 工 作 。 使 用 grep 来 仅 抽出 给 定 表 的 INSERT 
语句 较 简 单 ， 就 像 我 们 在 前 面 命 令 中 做 的 那样 ， 但 得 到 CREAIE 
TABLE 语 名 比较 难 。 下 面 是 抽取 所 需 段 洛 的 sed 脚 本 。 


$ sed -e '/./{H;$!d;}' -e 'x;/CREATE TABLE `actor`/!d;q' 


sakila-backup.sql 


FeV AG KAR OH SAE SB. WR MAM LAAT TUE HE , 
那 只 能 说 明 备 份 设计 非常 糟糕 。 如 果 有 一 点 规划 ， 可 能 就 不 会 需要 痛 
昔 地 去 尝试 弄 清 楚 sed 如 何 工 作 了 。 只 需要 备份 每 个 表 到 各 自 的 文件 ， 
或 者 可 以 更 进一步 ， 分 别 备份 数据 和 Schema。 


加 载 符 号 分 隔 文 件 


如 果 是 通过 SELECT INTO OUTFILE 导 出 的 符号 分 隔 文 件 ， 可 以 
使 用 LOAD DATA INFILE 通 过 相同 的 参数 来 加 载 。 也 可 以 用 
mysqlimport， 这 是 LOAD DATA INFILE 的 一 个 包装 。 这 种 方式 依赖 命 
名 约定 决定 从 哪里 加 载 一 个 文件 的 数据 。 


我 们 希望 你 导出 了 Schema， 而 不 仅 是 数据 。 如 果 是 这 样 ， 那 应 该 
是 一 个 SQL 导 出 ， 就 可 以 使 用 上 一 节 中 描述 的 技术 来 加 载 。 


使 用 LOAD DATA INFILE 有 一 个 非常 好 的 优化 技巧 。LOAD 
DATA INFILE 必 须 直接 从 文本 文件 中 读 取 ， 因 此 ， 如 果 是 压缩 文件 很 
多 人 会 在 加 载 前 先 解压 缩 ， 这 是 非常 慢 的 磁盘 密集 型 的 操作 。 然 而 ， 
在 支持 FIFO“ 命 名 管道 ”文件 的 系统 如 GNU/Linux 上 ， 对 这 种 操作 有 个 
很 好 的 方法 。 首 先 ， 创 建 一 个 命名 管道 并 将 解压 缩 数 据 流 到 它 里 面 。 


$ mkfifo /tmp/backup/default/sakila/payment .fifo 

$ chmod 666 /tmp/backup/default/sakila/payment. fifo 

$ gunzip -c /tmp/backup/default/sakila/payment. txt .gz 
> /tmp/backup/default/sakila/payment . fifo 


注意 我 们 使 用 了 一 个 大 于 号 字符 (>) 来 重 定向 解压 缩 输出 到 
payment.fifo 文 件 中 一 一 而 不 是 在 不 同 程序 之 间 创 建 匿名 管道 的 管道 符 


[mm | 
Wo 


管道 会 等 待 ， 直 到 其 他 程序 打开 它 并 从 另外 一 端 读 取 数 据 。 简 单 
一 点 说 ， lh N 的 数据 ， 就 像 其 他 
文件 一 样 。 如 果 可 能 ， 不 要 忘记 禁 掉 二 进 制 | ae 


mysql> SET SQL_LOG_BIN = 0; -- Optional 
-> LOAD DATA INFILE 
'/tmp/backup/default/sakila/payment.fifo' 
-> INTO TABLE sakila.payment; 
Query OK, 16049 rows affected (2.29 sec) 


Records: 16049 Deleted: 0 Skipped: 0 Warnings: 0 


一 旦 MySQL 加 载 完 数据 ，gunzip 就 会 退出 ， 然 后 可 以 删除 该 命令 
管道 。 在 MySQL 命 令 行 客户 端 使 用 SOURCE 命 令 加 载 压缩 的 文件 也 可 
以 使 用 此 技术 。 Percona Toolkit 中 的 pt-fifo-split 程 序 还 可 以 帮助 分 块 加 
载 大 文件 ， 而 不 是 在 单个 大 事务 中 操作 ， 这 样 效 率 更 高 。 


你 无 法 从 这 里 到 达 那 里 


本 书 的 作者 之 一 曾 将 一 列 从 DATETIME 变 为 TIMESTAMP ， 以 
节约 空间 并 使 处 理 过 程 更 快 ， 就 像 第 3 章 中 推荐 的 那样 。 结 果 表 定 
义 如 下 。 


CREATE TABLE tbl ( 
coli timestamp NOT NULL, 
col2 timestamp NOT NULL default CURRENT_TIMESTAMP 
on update CURRENT_TIMESTAMP, 
. more columns ... 


); 


这 个 表 定 义 在 MySQL 5.0.40 版 本 上 导致 了 一 个 语法 错误 ， 而 这 
是 创建 时 的 版 本 。 可 以 执行 导出 ， 但 无 法 加 载 。 这 很 奇怪 ， 诸 如 这 
样 无 法 预料 的 错误 也 是 测试 备份 重要 的 原因 之 一 。 你 永远 不 会 知道 
什么 会 阻止 你 还 原 数 据 ! 


15.6.3 ”基于 时 间 点 的 恢复 


对 MySQL 做 基于 时 间 点 的 恢复 常见 的 方法 是 还 原 最 近 一 次 全 备 
份 ， 然 后 从 那个 时 间 点 开始 重 放 二 进 制 日 志 〈《 有 时 叫 * 前 滚 恢复 ”) 。 

只 要 有 二 进 制 日 志 ， 就 可 以 恢复 到 任何 希望 的 时 间 点 。 甚 至 可 以 不 太 
费力 地 恢复 单个 数据 库 。 


主要 的 缺点 是 二 进 制 日 志 重 放 可 能 会 是 一 个 很 慢 的 过 程 。 它 大 体 
上 等 同 于 复制 。 如 果 有 一 个 备 库 ， 并 且 已 经 测量 到 SQL 绪 程 的 利用 率 
有 多 高 ， 那 么 对 重 放 二 进 制 日 志 会 有 多 快 融会 心里 有 效 了 。 例 如 ， m 
果 SQL 线 程 约 有 50% 被 利用 ， 则 恢复 一 周二 进 制 日 志 的 工作 可 能 在 三 
到 四 天 内 完成 。 


一 个 典型 场景 是 对 有 害 的 语句 的 结果 做 回 滚 操 作 ， 例 如 DROP 
TABLE。 让 我 们 看 一 个 简化 的 例子 ， 看 只 有 MyISAM 表 的 情况 下 该 如 
何 做 。 假 如 是 在 半夜 ， 备 份 任务 在 运行 与 下 面 所 列 相 当 的 语句 ， 复 制 
数据 库 到 同一 服务 器 上 的 其 他 地 方 。 


mysql> FLUSH TABLES WITH READ LOCK; 
-> serveril# cp -a /var/lib/mysgl/sakila /backup/sakila; 
mysql> FLUSH LOGS; 
-> serveri# mysql -e "SHOW MASTER STATUS" --vertical > 
/backup/master.info; 


mysql> UNLOCK TABLES; 


然后 ， 假 设 有 人 在 晚 些 时 间 运 行 下 列 语句 。 


mysql> USE sakila; 


mysql> DROP TABLE sakila. payment; 


为 了 便于 说 明 ， 我 们 先 假设 可 以 单独 地 恢复 这 个 数据 库 ( 即 此 库 
中 的 表 不 涉及 跨 库 查 询 ) 。 再 假设 是 直到 后 来 出 问题 才 意识 到 这 个 有 
问题 的 语句 。 目 标 是 恢复 数据 库 中 除了 有 问题 的 语句 之 外 所 有 发 生 的 
事务 。 也 就 是 说 ， 其 他 表 已 经 做 的 所 有 修改 都 必须 保持 ， 包 括 有 问题 
的 语句 运行 之 后 的 修改 。 


这 并 不 是 很 难 做 到 。 首 先 ， 停 掉 MySQL 以 阻止 更 多 的 修改 ， 然 后 
从 备份 中 仅 恢 复 sakila 数 据 库 。 


Server1# /etc/init.d/mysql stop 
serveri# mv /var/lib/mysql/sakila /var/1lib/mysgql/sakila. tmp 
serveri# cp -a /backup/sakila /var/1lib/mysql 


再 到 运行 的 服务 器 的 my.cnf 中 添加 如 下 配置 以 禁止 正常 的 连接 。 


skip-networking 


socket=/tmp/mysql_recover .sock 


现在 可 以 安全 地 启动 服务 器 了 。 


Server1# /etc/init.d/mysql start 


下 一 个 任务 是 从 二 进 制 日 志 中 分 出 需要 重 放 和 忽略 的 语句 。 事 友 
时 ， 自 半夜 的 备份 以 来 ， 服 务 器 只 创建 了 一 个 二 进 制 日 志 。 我 们 可 以 
用 grep 来 检查 二 进 制 日 志文 件 以 找到 问题 语句 。 


serveri# mysqlbinlog --database=sakila 
/var/log/mysql/mysql-bin.000215 
| grep -B3 -i 'drop table sakila.payment' 
# at 352 
#070919 16:11:23 server id 1 end_log_pos 429 Query 
thread_id=16 exec_time=0 
error_code=0 
SET TIMESTAMP=1190232683/*!*/; 


DROP TABLE sakila.payment/*!*/; 


可 以 看 到 ， 我 们 想 忽略 的 语句 在 日 志文 件 中 的 352 人 位置， 下 一 个 语 
句 位 置 是 429。 可 以 用 下 面 的 命令 重 放 日 志 直 到 352 位 置 ， 然 后 从 429 继 


$ 
续 。 


serveri# mysqlbinlog --database=sakila 
/var/log/mysql/mysql-bin.000215 
--stop-position=352 | mysql -uroot -p 
serveri# mysqlbinlog --database=sakila 
/var/log/mysql/mysql-bin.000215 


--start-position=429 | mysql -uroot -p 


接 下 来 要 做 的 是 检测 数据 以 确保 没有 问题 ， 然 后 关闭 服务 器 并 撤 
消 对 my.cnf 的 改变 ， 最 后 重启 服务 器 。 


15.6.4 ”更 高 级 的 恢复 技术 


复制 和 基于 时 间 点 的 恢复 使 用 的 是 相同 的 技术 : 服务 器 的 二 进 制 
日 志 。 这 意味 着 复制 在 恢复 时 会 是 个 非常 有 帮助 的 工具 ， 哪 怕 方 式 不 
是 很 明显 。 在 本 节 中 我 们 将 演示 一 些 可 以 用 到 的 方法 。 这 里 列 出 来 的 
不 是 一 个 完全 的 列表 ， 但 应 该 可 以 为 你 根据 需求 设计 恢复 方案 带 来 一 
些 想法 。 记 得 编写 脚本 ， 并 且 对 恢复 过 程 中 需要 用 到 的 所 有 技术 进行 
预演 。 


用 于 快速 恢复 的 延 时 复制 


在 本 章 的 前 面 已 经 提 到 ， 如 果 有 一 个 延 时 的 备 库 ， 并 且 在 备 库 执 
行 问题 语句 之 前 就 发 现 了 问题 ， 那 么 基于 时 间 点 的 恢复 就 更 快 更 容易 
了 。 


恢复 的 过 程 与 本 章 前 几 节 描述 的 有 点 不 一 样 ， 但 思路 是 相同 的 。 
停止 备 库 ， 用 START SLAVE UNTIL 来 重 放 事 件 直 到 要 执行 问题 语 
句 。 接 着 ， 执 行 SET GLOBAL SQL_SLAVE_SKIP_COUNTER=1 来 跳 
过 问题 语句 。 如 果 想 跳 过 多 个 事件 ， 可 以 设置 一 个 大 于 1 的 值 (或 简单 
地 使 用 CHANGE MASTER TO 来 前 移 备 库 在 日 志 中 的 位 置 ) o 


然后 要 做 的 就 是 执行 START SLAVE， 让 备 库 执行 完 所 有 的 中 继 日 
志 。 这 样 就 利用 备 库 完成 了 基于 时 间 点 的 恢复 中 所 有 宛 长 的 工作 。 现 
在 可 以 将 备 库 提升 为 主 库 ， 整 个 恢复 过 程 基 本 上 没有 中 断 服务 。 


即使 没有 延 时 的 备 库 来 加 速 恢复 ， 普 通 的 备 库 也 有 好 处 ， 至 少 会 
把 主 库 的 二 进 制 日 志 复 制 到 另外 的 机 器 上 。 如 果 主 库 的 磁盘 坏 了 ， 备 
库 上 的 中 继 日 志 可 能 融 是 唯一 能 够 获取 到 的 最 接近 主 库 二 进 制 日 志 的 
东西 了 。 


使 用 日 志 服务 器 进行 恢复 


还 有 另外 一 种 使 用 复制 来 做 恢复 的 方法 : 设置 日 志 服 务 器 。 我 们 
感觉 复制 比 mysglbinlog 更 可 靠 ，mysglbinlog 可 能 会 有 一 些 导 致 异常 行 
为 的 奇怪 的 Bug 和 不 常见 的 情况 。 使 用 日 志 服 务 器 进行 恢复 比 
mysqlbiniog 更 灵活 更 简单 ， 不 仅 因 为 START SLAVE UNTIL 选 项 ， 还 因 
为 那些 可 以 采用 的 复制 规则 (例如 replicate-do-table) 。 使 用 日 志 服 务 
器 ， 相 对 其 他 的 方式 来 说 ， 可 以 做 到 更 复杂 的 过 滤 。 


例如 ， 使 用 日 志 服 务 器 可 以 轻松 地 恢复 单个 表 。 而 用 mysqlbinlog 
和 命令 行 工具 则 要 困难 得 多 一 一 事实 上 ， 这 样 做 太 复杂 了 ， 所 以 我 们 
一 般 不 建议 进行 尝试 。 


假设 粗心 的 开发 人 员 像 前 面 的 例子 一 样 删除 了 同样 的 表 ， 现 在 想 
恢复 此 误 操 作 ， 但 又 不 想 让 整个 服务 器 退 到 昨 晚 的 备份 。 下 面 是 利用 
日 志 服 务 器 进行 恢复 的 步骤 : 


1. 将 需要 恢复 的 服务 器 叫 作 serverl。 
2. 在 另外 一 台 叫 做 server2 的 服务 器 上 恢复 昨 晚 的 备份 。 在 这 人 台 服 务 
器 上 运行 恢复 进程 ， 以 免 在 恢复 时 犯错 而 导致 事情 更 糟 。 
3. 按照 第 10 章 的 做 法 设置 日 志 服 务 器 来 接收 server1 的 二 进 制 日 志 
(复制 日 志 到 另外 一 个 服务 器 并 设置 日 志 服 务 器 是 个 好 想法 ， 但 
是 要 格外 注意 。 ) 
4. 改变 server2 的 配置 文件 ， 增 加 如 下 内 容 。 


replicate-do-table=sakila.payment 


5. 重启 server2 ， 然 后 用 CHANGE MASTER TO 来 让 它 成 为 日 志 服 务 
器 的 备 库 。 配 置 它 从 昨 晚 备份 的 二 进 制 日 志 坐 标 读 取 。 这 时 候 切 
记 不 要 运行 START SLAVE。 

6. 检测 server2 上 的 SHOW SLAVE STATUS 的 输出 ， 验 证 一 切 正常 。 
要 三 思 而 行 ! 

7. 找到 二 进 制 日 志 中 问题 语句 的 位 置 ， 在 server2 上 执行 START 
SLAVE UNTIL 来 重 放 事 件 直到 该 位 置 。 

8. 在 server 2 上 用 STOP SLAVE 停 掉 复制 进程 。 现 在 应 该 有 被 删除 
表 ， 因 为 现在 从 库 停止 在 被 删除 之 前 的 时 间 点 。 

9. 将 所 需 表 从 server2 复 制 到 server1。 


只 有 没有 任何 多 表 的 UPDATE、DELETE 或 INSERT 语 句 操 作 这 个 
表 时 ， 上 述 流程 才 是 可 行 的 。 任 何 这 样 的 多 表 操 作 语 句 在 被 记录 的 时 
候 ， 可 能 是 基于 多 个 数据 库 的 状态 ， 而 不 仅仅 是 当前 要 恢复 的 这 个 数 
据 库 ， 所 以 这 样 恢复 出 来 的 数据 可 能 和 原始 的 有 所 不 同 。 (REEE 
用 基于 语句 的 二 进 制 日 志 时 才 会 有 这 个 问题 ， 如 果 使 用 的 是 基于 行 的 
日 志 ， 重 放 过 程 不 会 磁 到 这 个 错误 。) 


15.6.5 InnDBA AME 


InnoDB 在 每 次 启动 时 都 会 检测 数据 和 日 志文 件 ， 以 确认 是 否 需 
执行 恢复 过 程 。 而 且 ， InnoDB 的 恢复 过 程 与 我 们 在 本 章 之 前 谈论 的 不 
是 一 回 事 。 它 并 不 是 恢复 备份 的 数据 ; 而 是 根据 日 志文 件 将 事务 应 用 
到 数据 文件 ， 将 未 提交 的 变更 从 数据 文件 中 回 滚 。 


精确 地 描述 ImnoDB 如 何 进行 恢复 工作 ， 这 有 点 太 过 复杂 。 我 们 要 
关注 的 焦点 是 当 InnoDB 有 严重 问题 时 如 何 实际 执行 恢复 。 


大 部 分 情况 下 InnoDB 可 以 很 好 地 解决 问题 。 除 非 MySQL 有 了 Bug 或 
硬件 有 问题 ， 否 则 不 需要 做 任何 非常 规 的 事情 ， 哪 怕 是 服务 器 意外 断 
电 。InnoDB 会 在 启动 时 执行 正常 的 恢复 ， 然 后 就 一 切 正音 了 。 在 日 志 
文件 中 ， 可 以 看 到 如 下 信息 。 


InnoDB: Doing recovery: scanned up to log sequence number 0 
40817239 
InnoDB: Starting an apply batch of log records to the 


database... 


InnoDB 会 在 日 志文 件 中 输出 恢复 进度 的 百分比 信息 。 有 些 人 说 直 
到 整个 过 程 完成 才能 看 到 这 些 信息 。 耐 心 点 ， 这 个 恢复 过 程 是 急 不 来 
的 。 如 果 心 急 而 杀 抒 进程 并 重启 ， 只 会 导致 需要 更 长 的 恢复 时 间 。 


如 果 服 务 器 硬件 有 严重 问题 ， 例 如 内 存 或 磁盘 损坏 ， 或 遇 到 了 
MySQL 或 InnoDB 的 Bug， 可 能 就 不 得 不 介入 ， 这 时 要 么 进行 强制 恢 
复 ， 要 么 阻止 正常 恢复 发 生 。 


InnoDB 损 坏 的 原因 
InnoDB 非 常 健壮 且 可 靠 ， 并 且 有 许多 的 内 建安 全 检测 来 防止 、 检 


测 和 修复 损坏 的 数据 比 其 他 MySQL 存 储 引 擎 要 强 很 多 。 然 而 ， 
InnoDB 并 不 能 保护 自己 避免 一 切 错 误 。 


最 起 码 ，InnoDB 依 赖 于 无 缓存 的 W/O 调用 和 fsync() 调 用 ， 直 到 数据 
完全 地 写 入 到 物理 介质 上 才 会 返回 。 如 果 硬 件 不 能 保证 写 入 的 持久 
化 ，ImnoDB 也 就 不 能 保证 数据 的 持久 ， 朋 溃 就 有 可 能 导致 数据 损坏 。 


很 多 InnoDB 损 坏 问 题 都 是 与 硬件 有 关 的 (例如 ， 因 电力 问题 或 内 
存 损坏 而 导致 损坏 页 的 写 入 ) 。 然 而 ， 在 我 们 的 经 验 中 ， 错 误 配 置 的 
硬件 是 更 多 的 问题 之 源 。 单 见 的 错误 配置 包括 打开 了 不 包含 电池 备份 
单元 的 RAID 卡 的 回 写 缓存 ， 或 打开 了 硬盘 驱动 器 本 身 的 回 写 缓 存 。 这 
些 错误 将 会 导致 控制 器 或 驱动 器 “撒谎 ”， 在 数据 实际 上 只 写 入 到 回 写 
缓存 上 而 不 是 磁盘 上 时 ， 却 说 fsyncO 已 经 完成 。 换 名 话说， 硬件 没 有 
提供 保持 InnoDB 数 据 安全 的 保证 。 


有 时 候 机 器 默认 就 会 这 样 配置 ， 因 为 这 样 做 可 以 得 到 更 好 的 性 能 
对 于 某 些 场景 确实 很 好 ， 但 是 对 事务 数据 服务 来 说 却 是 个 大 问 


题 。 


如 果 在 网 络 附加 存储 (NAS) 上 运行 InnoDB， 也 可 能 会 遇 到 损 
坏 ， 因 为 对 NAS 设 备 来 说 完成 fsyncO 只 是 意味 着 设备 接收 到 了 数据 。 
如 果 ImnoDB 骨 溃 ， 数 据 是 安全 的 ， 但 如 果 是 NAS 设 备 朋 溃 就 不 一 定 
了 。 


严重 的 损坏 会 使 InnoDB 或 MySQL 关 演 ， 而 不 那么 严重 的 损坏 则 可 
能 只 是 由 于 日 志文 件 未 真正 同步 到 磁盘 而 丢掉 了 某 些 事务 。 


如 何 恢复 损坏 的 mnoDB 数 据 


InnoDB 损 坏 有 三 种 主要 类 型 ， 它 们 对 数据 恢复 有 着 不 同 程度 的 要 
求 。 


二 级 索引 损坏 


一 般 可 以 用 OPTIMIZE TABLE 来 修复 损坏 的 二 级 索引 ; 此 
外 ， 也 可 以 用 SELECT INTO OUTFILE， 删 除 和 重建 表 ， 然 后 
LOAD DATA INFILE 的 方法 。 (也 可 以 将 表 改 为 使 用 MyISAM 表 
改 回来 。) 这 些 过 程 都 是 通过 构建 一 个 新 表 重 建 受 影响 的 索引 ， 
来 修复 损坏 的 索引 数据 。 


BRAS | 


如 果 是 聚 族 索引 损坏 ， 也 许 只 能 使 用 innodb_force_recovery 选 
项 来 导出 表 (关于 这 点 后 续 会 讲 更 多 ) 。 有 时 导出 过 程 会 让 
InnoDB 骨 溃 ; 如 果 出 现 这 样 的 情况 ， 或 许 需要 跳 过 导致 衣 演 的 损 
坏 页 以 导出 其 他 的 记录 。 聚 禾 索 引 的 损坏 比 二 级 索引 要 更 难 修 
复 ， 因 为 它 会 影响 数据 行 本 身 ， 但 在 多 数 场合 下 仍然 只 需要 修复 
受 影 响 的 表 。 


损坏 系统 结构 


系统 结构 包括 InnoDB 事 务 日 志 、 表 空间 的 撤销 日 志 (undo 
log) 区 域 和 数据 字典 。 这 种 损坏 可 能 需要 做 整个 数据 库 的 导出 和 
还 原 ， 因 为 InnoDB 内 部 绝 大 部 分 的 工作 都 可 能 受到 影响 。 


一 般 可 以 修复 损坏 的 二 级 索引 而 不 丢失 数据 。 然 而 ， 另 外 两 种 情 
形 经 常会 引起 数据 的 丢失 。 如 果 已 经 有 备份 ， 那 最 好 还 是 从 备份 中 还 
原 ， 而 不 是 试 着 从 损坏 的 文件 里 去 提取 数据 。 


如 果 必 须 从 损坏 的 文件 里 提取 数据 ， 那 一 般 过 程 是 先 尝 试 让 
InnoDB 运 行 起 来 ， 然 后 使 用 SELECT INTO OUTFILE 导 出 数据 。 如 果 
服务 器 已 经 月 演 ， 并 且 每 次 启动 InnoDB 都 会 月 演 ， 那 么 可 以 配置 


InnoDB 停 止 常规 恢复 和 后 台 进 程 的 运行 。 这 样 也 许可 以 启动 服务 器 ， 
然后 在 缺少 或 不 做 完整 性 检查 的 情况 下 做 逻辑 备份 。 


innodb_force_recovery 参 数控 制 着 InnoDB 在 启动 和 常规 操作 时 要 
做 哪 一 种 类 型 的 操作 。 通 常情 况 下 这 个 值 是 9， 可 以 增 大 到 6。MySQL 
使 用 手册 里 记录 了 每 个 数值 究竟 会 产生 什么 行为 ， 在 此 我 们 不 会 重复 
这 段 信 息 ， 但 是 要 告诉 你 : 在 有 点 危险 的 前 提 下 ， 可 以 把 这 个 数值 调 
高 到 4。 使 用 这 个 设置 时 ， 若 有 数据 页 损坏 ， 将 会 丢失 一 些 数 据 ; WR 
将 数值 设 得 更 高 ， 可 能 会 从 损坏 的 页 里 提取 到 坏 抒 的 数据 ， 或 者 增加 
执行 SELECT INTO OUTFILES 时 骨 溃 的 风险 。 换 名 话说， 这 个 值 直 到 
4 都 对 数据 没有 损害 ， 但 可 能 未 失修 复 问 题 的 机 会 ; 而 到 5 和 6 会 更 主 
动 地 修复 问题 ， 但 损害 数据 的 风险 也 会 很 大 。 


当 把 innodb_force_recovery 设 为 大 于 0 的 某 个 值 时 ，InnoDB 基本 上 
是 只 读 的 ， 但 是 仍然 可 以 创建 和 删除 表 。 这 可 以 阻止 进一步 的 损坏 ， 
InnoDB 会 放松 一 些 常规 检查 ， 以 便 在 发 现 坏 数 据 时 不 会 特意 骨 溃 。 在 
常规 操作 中 ， 这 样 做 是 有 安全 保障 的 ， 但 是 在 恢复 时 ， 最 好 还 是 避免 
这 样 做 。 如 果 需 要 执行 mnoDB 强制 恢复 ， 有 个 好 主意 是 配置 
MySQL， 使 它 在 操作 完成 之 前 不 接受 常规 的 连接 请 求 。 


如 果 InnoDB 的 数据 损坏 到 了 根本 不 能 启动 MySQL 的 程度 ， 还 可 以 
使 用 Percona 出 品 的 InnoDB Recovery Toolkit 从 表 空 间 的 数据 文件 里 直 
接 抽 取 数 据 。 这 个 工具 由 本 书 的 几 个 作者 开发 ， 可 以 从 
http:Mwww.percona.com/software 免 费 获 取 。Percona Server 还 有 人 允许 服 
务 器 在 某 些 表 损坏 时 仍 能 运行 的 选项 ， 而 不 是 像 MySQL 那 样 在 单个 表 
损坏 页 被 检测 出 时 就 默认 强制 朋 溃 。 


15.7 备份 和 恢复 工具 


有 各 种 各 样 的 好 的 和 不 是 那么 好 的 备份 工具 。 我 们 喜欢 对 LYM 使 

用 mylvmbackup 做 快照 备份 ， 使 用 Percona Xtrabackup (开源 ) 或 

MySQL Enterprise Backup (收费 ) 做 InnoDB 执 备份。 不 建议 对 大 数据 

量 使 用 mysqldump ， 因 为 它 对 服务 器 有 影响 ， 并 且 漫 长 的 还 原 时 间 不 
可 预知 。 


有 一 些 备 份 工具 已 经 出 现 多 年 了 了， 不幸 的 是 有 些 已 经 过 时 。 最 明 
显 的 例子 是 Maatkit 的 mk-parallel-dump， 它 从 没有 正确 运行 ， 甚 至 被 重 
新 设计 过 好 几 次 还 是 不 行 。 另 外 一 个 工具 是 mysqlhotcopy， 它 适合 于 古 
老 的 MyISAM 表 。 大 部 分 场景 下 这 两 个 工具 都 无 法 让 人 相信 数据 是 安 
全 的 ， 它 们 会 使 人 误 以 为 备份 了 数据 实际 上 却 非 如 此 。 例 如 ， 当 使 用 
InnoDB 的 innodb_file_per_table 时 ，mysglhotcopy 会 复制 .ibd 文 件 ， 这 会 
使 一 些 人 误 以 为 InnoDB 的 数据 已 经 备份 完成 。 在 某 些 场景 下 ， 这 两 个 
工具 都 对 服务 器 有 一 些 负面 影响 。 


如 果 你 在 2008 或 2009 年 时 在 看 MySQL 的 路 线 图 ， 可 能 听 说 过 
MySQL 在 线 备 份 。 这 是 一 个 可 以 用 SQL 命令 来 开始 备份 和 还 原 的 特 
性 。 它 原本 是 规划 在 MySQL 5.2 版 本 中 ， 后 来 重新 安排 在 了 MySQL 
6.0 中 ， 再 后 来 ， 据 我 们 所 知 被 永久 取消 了 。 


15.7.1 MySQL Enterprise Backup 


这 个 工具 之 前 叫做 InnoDB Hot Backup 或 ibbackup， 是 从 Oracle 购 
买 的 MySQL Enterprise 中 的 一 部 分 。 使 用 此 工具 备份 不 需要 停止 


MySQL ， 也 不 需要 设置 锁 或 中 断 正 常 的 数据 库 活 动 (但 是 会 对 服务 器 
造成 一 些 额外 的 负载 ) 。 它 支持 类 似 压缩 备份 、 增 量 备 份 和 到 其 他 服 
务 器 的 流 备份 的 特性 。 这 是 MySQL“ 官 方 ” 的 备份 工具 。 


15.7.2 Percona XtraBackup 


Percona XtraBackup55 MySQL Enterprise Backup 在 很 多 方面 都 非常 
类 似 ， 但 它 是 开源 并 且 免 费 的 。 除 了 核心 备份 工具 外 ， 还 有 一 个 用 
Perl 写 的 封装 脚本 ， 可 以 提供 更 多 高 级 功能 。 它 支持 类 似 流 、 增 量 、 
压缩 和 多 线程 (并 行 ) 备份 操作 。 也 有 许多 特别 的 功能 ， 用 以 降低 在 
高 负载 的 系统 上 备份 的 影响 。 


Percona XtraBackup 的 工作 方式 是 在 后 人 台 线 程 不 断 追 踪 InnoDB 日 志 
文件 尾部 ， 然 后 复制 InnoDB 数 据 文件 。 这 是 个 轻 量 级 侵入 过 程 ， 依 靠 
特别 的 检测 机 制 | 确 保 复制 的 数据 是 一 致 的 。 当 所 有 的 数据 文件 被 复制 
T, 日志 复制 线程 就 结束 了 。 结 果 是 在 不 同 的 时 间 点 的 所 有 数据 的 副 
本 。 然 后 可 以 使 用 InnoDB 骨 溃 恢 复 代 码 应 用 事务 日 志 ， 以 达到 所 有 数 
据 文件 一 致 的 状态 。 这 一 步 叫 作 准 备 过 程 。 一 旦 准备 好 ， 备 份 就 会 完 
全 一 致 ， 并 且 包 含 文件 复制 过 程 最 后 时 间 点 已 经 提交 的 事务 。 一 切 都 
在 MySQL 外 部 完成 ， 因 此 不 需要 以 任何 方式 连接 或 访问 MySQL。 


包装 脚本 包含 通过 复制 备份 到 原 位 置 的 方式 进行 恢复 的 能 力 。 还 
有 Lachlan Mulcahy 的 XtraBack Manager 项 目 ， 功 能 更 多 ， 详 情 参 见 
http://code.google.com/p/xtrabackup-manager/o 


15.7.3 mylvmbackup 


Lenz Grimmer 的 mylvmbackup 
(http://lenz.homelinux.org/mylvmbackup/) 是 一 个 Perl 脚本， 它 通过 
LVM 快 照 帮 助 MySQL 自动 备份 。 此 工具 首先 获取 全 局 读 锁 ， 创 建 快 
照 ， 释 放 锁 。 然 后 通过 tar 压 缩 数据 并 移 除 快照 。 它 通过 备份 时 的 时 间 
戳 命 名 讨 缩 包 。 它 还 有 几 个 高 级 选项 ， 但 总 的 来 说 ， 这 是 一 个 执行 
LVM 备 份 的 非 澡 简单 明了 的 工具 。 


15.7.4 Zmanda Recovery Manager 


i& FA 于 MySQL 的 Zmanda Recovery Manager ， 或 ZRM 
(http://www.zmanda.com) ， 有 免费 (GPL) 和 商业 两 种 版 本 。 企 业 
版 提供 基于 网 页 图 形 接口 的 控制 台 ， 用 来 配置 、 备 份 、 验 证 、 恢 复 、 
报告 和 调度 。 开 源 的 版 本 包含 了 所 有 核心 功能 ， 但 缺少 一 些 额外 的 特 
性 ， 例 如 基于 网 页 的 控制 台 。 


正如 其 名 ，ZRM 实 际 上 是 一 个 备份 和 恢复 管理 器 ， 而 并 非 单一 工 
具 。 它 封装 了 自 有 的 基于 标准 工具 和 技术 ， 例 如 mysqldqump、LVM 快 
照 和 Percona XtraBackup 等 之 上 的 功能 。 它 将 许多 见长 的 备份 和 恢复 工 
作 进行 了 自动 化 。 


15.7.5 mydumper 


几 名 MySQL 现 在 和 之 前 的 工程 师 利 用 他 们 多 年 的 经 验 创建 了 
mydumper， 用 来 替代 mysqldump。 这 是 一 个 多 线程 (并 发 ) 的 备份 和 
还 原 MySQL 和 Drizzle 的 工具 集 ， 有 许多 很 好 的 特性 。 大 概 有 许多 人 会 
发 现 多 线程 备份 和 还 原 的 速度 是 这 个 工具 最 吸引 人 的 特色 。 尽 管 我 们 


知道 有 些 人 在 生产 环境 中 使 用 ， 但 我 们 还 没有 在 任何 产品 中 使 用 的 经 
验 。 可 以 在 http:Mwwwmydumperorg 找 到 更 多 信息 。 


15.7.6 mysqldump 


大 部 分 人 在 使 用 这 个 与 MySQL 一 起 发 行 的 程序 ， 因 此 ， 尽 管 它 有 
缺点 ， 但 创建 数据 和 Schema 的 逻辑 备份 最 常见 的 选择 还 是 
mysqldump。 这 是 一 个 通用 工具 ， 可 以 用 于 许多 的 任务 ， 例 如 在 服务 
器 间 复 制 表 。 


$ mysqldump --host=server1 test t1 | mysql --host=server2 


test 


我 们 在 本 章 中 展示 了 几 个 用 mysqldump 创 建 逻辑 备份 的 例子 。 该 
工具 默认 会 输出 包含 创建 表 和 填充 数据 的 所 有 需要 的 命令 ; 也 有 选项 
可 以 控制 输出 视图 、 存 储 代码 和 触发 器 。 下 面 有 一 些 典 型 的 例子 。 


。 对 服务 器 上 所 有 的 内 容 创 建 逻 辑 备 份 到 单个 文件 中 ， 每 个 库 中 所 
有 的 表 在 相同 逻辑 时 间 点 备份: 


$ mysqldump -all-databases > dump.sql 


。 创建 只 包含 Sakila 示 例 数据 库 的 逻辑 备份 : 


$ mysqldump -databases sakila >dump.sql 


。 创建 只 包含 sakila.actor 表 的 逻辑 备份 : 


$ mysqldump sakila actor > dump.sql 


可 以 使 用 --result-file 选 项 来 指定 输出 文件 ， 这 可 以 帮助 防止 在 
Windows 上 发 生 换 行 符 转 换 : 


$ mysqldum sakila actor -result-file=dump.sql 


mysqldump 的 默认 选项 对 于 大 多 数 备份 目 的 来 说 并 不 够 好 。 多 半 
要 显 式 地 指定 某 些 选项 以 改变 输出 。 下 面 是 一 些 我 们 经 常 使 用 的 选 
项 ， 可 以 让 mysqldump 更 加 高 效 ， 输 出 更 容易 使 用 。 


--opt 


启用 一 组 优化 选项 ， 包 括 关 闭 缓冲 区 〈 它 会 使 服务 器 耗 尽 内 
存 ) ， 导 出 数据 时 把 更 多 的 数据 写 在 更 少 的 SQL 语句 里 ， 以 便 在 
加 载 的 时 候 更 有 效率 ， 以 及 做 其 他 一 些 有 用 的 事情 。 更 多 细节 可 
以 阅读 帮助 文件 。 如 果 关 闭 了 这 组 选项 ，mysqldump 会 在 把 表 写 
到 磁盘 之 前 ， 把 它们 都 导出 到 内 存 里 ， 这 对 于 大 型 的 表 而 言 是 不 
切实 际 的 。 


--allow-keywords, --quote-names 
使 用 户 在 导出 和 恢复 表 时 ， 可 以 使 用 保留 字 作 为 表 的 名 字 。 


--complete-insert 


使 用 户 能 在 不 完全 相同 列 的 表 之 间 移 动 数据 。 
--tz-utc 

使 用 户 能 在 具有 不 同时 区 的 服务 器 之 间 移 动 数据 。 
--lock-all-tables 


使 用 FLUSH TABLE WITH READ LOCK 来 获取 全 局 一 致 的 备 
份 。 


--tab 
用 SELECT INTO OUTFILE 导 出 文件 。 
--Skip-extended-insert 


使 每 一 行 数据 都 有 自己 的 INSERT 语 句 。 必 要 时 这 可 以 用 于 有 
选择 地 还 原 某 些 行 。 它 的 代价 是 文件 更 大 ， 导 入 到 MySQL 时 开销 
会 更 大 。 因 此 ， 要 确保 只 有 在 需要 时 才 启 用 它 。 


如 果 在 mysgldump 上 使 用 --databases 或 --all-databases 选 项 ， 那 么 最 
终 导出 的 数据 在 每 个 数据 库 中 都 一 致 ， 因 为 mysqldump 会 在 同一 时 间 
锁定 并 导出 一 个 数据 库 里 的 所 有 表 。 然 而 ， 来 自 不 同 数 据 库 的 各 个 表 
就 未 必 是 相互 一 致 的 。 使 用 --lock-all-tables 选 项 可 以 解决 这 个 问题 。 


对 于 InnoDB 备 份 ， 应 该 增加 --single-transaction 选 项 ， 这 会 使 用 
InnoDB 的 MVCC 特 性 在 单个 时 间 点 创建 一 个 一 致 的 备份 ， 而 不 需要 使 
用 LOCK TABLES 锁 定 所 有 表 。 如 果 增 加 --master-data 选 项 ， 备 份 还 会 
包括 在 备份 时 服务 器 的 二 进 制 日 志文 件 位 置 ， 这 对 基于 时 间 点 的 恢复 


和 设置 复制 非常 有 帮助 。 然 而 也 要 知道 ， 获 得 日 志 位 置 时 需要 使 用 
FLUSH TABLES WITH READ LOCK 冻结 服务 器 。 


15.8 备份 脚本 化 


为 备份 写 一 些 脚本 是 标准 做 法 。 展 示 一 个 示例 程序 ， 其 中 必定 有 
很 多 辅助 内 容 ， 这 只 会 增加 篇 幅 ， 在 这 里 我 们 更 愿意 列举 一 些 典型 的 
备份 脚本 功能 ， 展 示 一 些 Perl 脚 本 的 代码 片断 。 你 可 以 把 这 些 当 作 可 
重用 的 代码 块 ， 在 创建 自己 的 脚本 时 可 以 直接 组 合 起 来 使 用 。 下 面 将 
大 致 按照 使 用 顺序 来 展示 。 


安全 检测 


安全 检测 可 以 让 自己 和 同事 的 生活 更 简单 点 一 一 打开 严格 的 
错误 检测 ， 并 且 使 用 英文 变量 名 。 


use strict; 
use warnings FATAL => ‘all'; 


use English qw(-no_match_vars); 


如 果 是 在 Bash 下 使 用 脚本 ， 还 可 以 做 更 严格 的 变量 检测 。 下 面 的 
设置 会 让 替换 中 有 未 定义 的 变量 或 程序 出 错 退 出 时 产生 一 个 错误 。 


增加 命令 行 选项 处 理 最 好 的 方法 是 用 标准 库 ， 它 已 包含 在 
Perl 标 准 安装 中 。 


use Getopt::Long; 
Getopt::Long: :Configure('no_ignore_case', '‘bundling'); 


GetOptions(....); 
连接 MySQL 


标准 的 Perl DBI 库 几乎 无 所 不 在 ， 提 供 了 许多 强大 和 灵活 的 功 
能 。 使 用 详情 请 参阅 Perldoc (可 从 http://search.cpna.org 在 线 获 取 ) 。 
可 以 像 下 面 这 样 使 用 DBI 来 连接 MySQL。 


use DBI; 
$dbh = DBI->connect( 
"DBI:mysql:;host-localhost', 'user', 'p4ssword', 


{RaiseError => 1}); 


对 于 编写 命令 行 脚本 ， 请 阅读 标准 mysq1 程 序 的 --hejp 人 参数 的 输出 
文本 。 它 有 许多 选项 可 更 友好 地 支持 脚本 。 例 如 ， 在 Bash 中 遍历 数据 
库 列 表 如 下 。 


mysql -ss -e 'SHOW DATABASES' | while read DB; do 


ech "${DB}" 


done 
停止 和 启动 MySQL 


停止 和 启动 MySQL 最 好 的 方法 是 使 用 操作 系统 推荐 的 方法 ， 例 如 
运行 /etc/init.d/mysql init 脚 本 或 通过 服务 控制 (在 Windows 下 ) o Am 
这 并 不 是 唯一 的 方法 。 可 以 从 Perl 中 用 一 个 已 存在 的 数据 库 连 接 来 关 
闭 数据 库 。 


$dbh->func("shutdown", 'admin'); 


当 这 个 命令 完成 时 不 要 太 指望 MySQL 已 经 被 关闭 一 一 它 可 能 正在 
天 闭 的 过 程 中 。 也 可 以 通过 命令 行 来 停 掉 MySQL。 


$ mysqladmin shutdown 
获取 数据 库 和 表 的 列表 


每 个 备份 脚本 都 会 查询 MySQL 以 获取 数据 库 和 表 的 列表 。 要 注意 
那些 实际 上 并 不 是 数据 库 的 条 目 ， 例 如 一 些 日 志 系 统 中 的 lost+found 文 
件 夹 和 INFORMATION_SCHEMA。 也 要 确保 脚本 已 经 准备 好 应 付 视 
， 同 时 也 要 知道 SHOW TABLE STATUS 在 InnoDB 中 有 大 量 数据 时 可 
能 耗 时 很 长 。 


mysql> SHOW DATABASES; 


mysql> SHOW /*!50002 FULL*/ TABLES FROM <database>; 


mysql> SHOW TABLE STATUS FROM <database>; 
对 表 加 锁 、 刷 新 并 解锁 


如 果 需 要 对 一 个 或 多 个 表 加 锁 并 且 / 或 刷新 ， 要 么 按 名 字 锁 住 
所 需 的 表 ， 要 么 使 用 全 局 锁 锁 住所 有 的 表 。 


mysql> LOCK TABLES <database.table> READ [, ...]/; 
mysql> FLUSH TABLES; 

mysql> FLUSH TABLES <database.table> [, ...]j; 
mysql> FLUSH TABLES WITH READ LOCK; 

mysql> UNLOCK TABLES; 


在 获取 所 有 的 表 并 锁 住 它 们 时 要 格外 注意 竞争 条 件 。 期 间 可 
能 会 有 新 表 创 建 ， 或 有 表 被 删除 或 重 命名 。 如 果 一 个 表 一 个 表 地 
锁 住 然 后 备份 ， 将 无 法 得 到 一 致 性 的 备份 。 


刷新 二 进 制 日 志 
让 服务 器 开始 一 个 新 的 二 进 制 日 志 非 常 简单 〈 一 般 在 锁 住 表 
后 但 在 备份 前 做 这 个 操作 ) : 
mysql> FLUSH LOGS; 


这 样 做 使 得 恢复 和 增 量 备份 更 简单 ， 因 为 不 需要 考虑 从 一 个 
日 志文 件 中 间 开 始 操作 。 此 操作 会 有 一 些 副 作用 ， 比 如 刷新 和 重 


新 打开 错误 日 日 志 ， tiny 销毁 老 的 日 志 条 目 ， 因此 ， 注意 不 要 扔 
挥 需要 用 到 的 数据。 


获取 二 进 制 日 志 位 置 


脚本 应 该 获取 并 记录 主 库 和 备 库 的 状态 一 一 即使 服务 器 仅 是 


个 主 库 或 备 库 。 


mysql> SHOW MASTER STATUS\G 
mysql> SHOW SLAVE STATUS\G 


执行 这 两 条 语句 并 忽略 错误 ， 以 使 脚本 可 以 获取 到 所 有 可 能 
的 信息 。 


导出 数据 


最 好 的 选择 是 使 用 mysqldump、mydumper 或 SELECT INTO 
OUTFILE。 


复制 数据 
可 以 使 用 本 章 中 演示 的 任何 一 个 方法 。 
这 些 都 是 构造 备份 脚本 的 基础 。 比 较 困 难 的 部 分 是 将 管理 和 恢复 
任务 脚本 化 。 如 果 想 获得 实现 的 灵感 ， 可 以 看 看 ZRM 的 源码 。 


15.9 Bea 


每 个 人 都 知道 需要 备份 ， 但 并 不 是 每 个 人 都 意识 到 需要 的 是 可 恢 
复 的 备份 。 有 许多 方法 可 以 规划 能 满足 恢复 需求 的 备份 。 为 了 避免 这 
个 问题 ， 我 们 建议 明确 并 记录 恢复 点 目标 和 恢复 时 间 目 标 ， 并 且 在 选 
择 备份 系统 时 将 其 作为 参考 。 


在 日 单 基础 上 做 恢复 测试 以 确保 备份 可 以 正音 工作 也 很 重要 。 设 
置 mysqldump 并 让 它 在 每 天 晚上 运行 是 很 简单 的 ， 但 很 多 时 候 不 会 意 
识 到 数据 随 着 时 间 已 经 增长 到 可 能 需要 几 天 或 几 周 才能 再 次 导入 的 地 
步 。 最 糟糕 的 是 当 你 真正 需要 恢复 的 时 候 ， 才 发 现 原来 需要 这 么 长 时 
间 。 室 不 夸张 地 说 ， 一 个 在 几 个 小 时 内 完成 的 备份 可 能 需要 几 周 时 间 
来 恢复 ， 具 体 取 决 于 人 硬件、Schema、 索 5 引 和 效 气 。 


不 要 掉 进 备 库 就 是 备份 的 陷阱 。 备 库 对 生成 备份 是 一 个 干涉 较 少 
的 源 ， 但 它 不 是 备份 本 身 。 对 于 RAID 卷 、SAN 和 文件 系统 快照 ， 也 同 
样 如 此 。 确 保 备 份 可 以 通过 DROP TABLE 测 试 《或 “遭受 黑客 攻击 ”的 
测试 ) ， 也 要 能 通过 数据 中 心 失 败 的 测试 。 如 果 是 基于 备 库 生 成 备 
份 ， 确 保 使 用 pt-table-checksum 验 证 复制 的 完整 性 。 


我 们 最 喜欢 的 两 种 备份 方式 ， 一 种 是 从 文件 系统 或 者 SAN 快 照 中 
直接 复制 数据 文件 ， 一 种 是 使 用 Percona XtraBackup 做 热 备份 。 这 两 种 
方法 都 可 以 无 侵入 地 实现 二 进 制 的 原始 数据 备份 ， 这 样 的 备份 可 以 通 
过 启动 mysqld 实 例 检 查 所 有 的 表 进 行 验 证 。 有 了 时候 甚至 可 以 一 石 二 
5: 可 以 在 开发 或 者 预 发 环境 每 天 将 备份 进行 还 原来 执行 恢复 测试 ， 
然后 再 将 数据 导出 为 逻辑 备份 。 我 们 也 建议 备份 二 进 制 日 志 ， 并 且 尽 
可 能 久 地 保留 多 份 备份 的 数据 和 二 进 制 文 件 。 这 样 即使 最 近 的 备份 无 
法 使 用 了 ， 还 可 以 使 用 较 老 的 备份 来 执行 恢复 或 者 创建 新 的 备 库 。 


除了 提 到 的 许多 开源 工具 ， 也 有 很 多 很 好 的 商业 备份 工具 ， 其 中 
最 重要 的 是 MySQL Enterprise Backup。 对 包括 在 GUI SQL 编辑 器 、 服 
务 器 管理 工具 和 类 似 工 具 中 的 “备份 ”工具 要 特别 小 心 。 同 样 地 ， 有 一 
些 出 品 “ 一 招 吃 遍 天 下 ”的 备份 工具 的 公司 ， 对 于 它们 宣称 的 支持 
MySQL 的 “MySQL 备 份 插件 ”也 要 特别 小 心 。 我 们 需要 的 是 主要 为 
MySQL 设 计 的 优秀 备份 工具 ， 而 不 是 一 个 支持 上 百 个 其 他 数据 库 并 恰 
巧 支持 MySQL 的 工具 。 有 许多 备份 工具 的 供应 者 并 不 知道 或 明白 诸如 
FLUSH TABLES WITH READ LOCK 操 作对 数据 库 的 影响 。 在 我 们 看 
来 ， 使 用 这 种 SQL 命 令 的 方案 应 该 自动 退出 “ 热 * 备 份 的 行列 。 如 果 只 
使 用 InnoDB 表 ， 就 更 加 不 需要 这 类 工具 。 


(1) Baron 仍 然 记 得 他 毕业 后 的 第 一 个 工作 ， 当 时 他 把 电子 商务 网 站 的 生产 服务 器 上 的 发 
货 表 删 除了 两 列 。 

(2) 是 的 ， 即 使 SELECT 查 询 也 会 被 阻塞 ， 因 为 如 果 有 一 个 查询 需要 修改 某 些 数据 ， 只 要 
它 开始 等 待 表 上 的 写 锁 ， 所 有 尝试 获取 读 锁 的 查询 也 必须 等 待 。 

(3) 由 mysqldump 生 成 的 逻辑 备份 并 不 一 定 是 文本 文件 。SQL 导 出 会 包含 许多 不 同 的 字符 
集 ， 同 样 也 会 包含 二 进 制 数据 ， 这 些 数据 并 不 是 有 效 的 字符 。 对 于 许多 编辑 器 来 说 ， 文 件 行 
也 可 能 会 太 长 。 但 是 ， 大 多 数 这 样 的 文件 还 是 可 以 被 编辑 器 打开 和 读 取 ， 特 别 是 mysqldump 使 
用 了 --hex-blob 选 项 时 。 

(4) 以 我 们 的 经 验 ， 逻 辑 备 份 往往 比 物理 备份 要 小 许多 ， 但 也 并 不 总 是 如 此 。 

(5) 值得 一 提 的 是 物理 备份 会 更 易 出 错 ; 很 难 像 mysqldump 一 样 简单 。 

(6) Percona XtraBackup 正 在 开发 “真正 的 ” 增 量 备份 特性 。 它 将 能 够 备份 变更 的 块 ， 而 不 需 
要 扫描 每 个 块 。 

(7) 请 不 要 用 Maatkit 的 mk-parallel-dump 和 mk-parallel-restore 工 具 。 它 们 并 不 安全 。 


第 16 章 “MySQL 用 户 工 具 


MySQL 服 务 器 发 行 包 中 并 没有 包含 针对 许多 常用 任务 的 工具 ， 例 
如 监控 服务 器 或 比较 不 同 服务 器 间 数 据 的 工具 。 盏 运 的 是 ，Oracle 的 
商业 版 提供 了 一 些 扩展 工具 ， 并 且 MySQL 活 跃 的 开源 社区 和 第 三 方 公 
司 也 提供 了 一 系列 的 工具 ， 降 低 了 目 己 “重复 发 明 轮 子 ” 的 需要 。 


16.1 接口 工具 


接口 工具 可 以 帮助 运行 查询 ， 创 建 表 和 用 户 ， 以 及 执行 其 他 日 常 
任务 等 。 本 节 将 简单 介绍 一 些 用 于 此 用 途 的 最 流行 的 工具 。 一 般 可 以 
用 SQL 碍 询 或 命令 做 所 有 这 些 或 其 中 大 部 分 的 工作 一 一 我 们 这 里 讨论 
的 工具 只 是 更 为 方便 ， 可 帮助 避免 错误 和 加 快 工作 。 


MySQL Workbench 


MySQL Workbench 是 一 个 一 站 式 的 工具 ， 可 以 完成 例如 管理 
服务 器 、 与 查询 、 开 发 存储 过 程 ， 以 及 Schema 设计 图 相关 的 工 
作 。 可 以 通过 一 个 插件 接口 来 编写 自己 的 工具 并 集成 到 这 个 工作 
平台 上 ， 有 一 些 Python 脚本 和 库 束 使 用 了 这 个 插件 接口 。MySQL 
Workbench 有 社区 版 和 商业 版 两 个 版 本 ， 商 业 版 只 是 增加 了 其 他 
的 一 些 高 级 特性 。 免 费 版 对 于 大 部 分 需要 早已 足够 了 。 在 
http://www.mysql.com/products/workbench/ 可 以 学 到 更 多 相关 的 内 
合 。 


SQLyog 


SQLyog 是 MySQL 最 流行 的 可 视 化 工具 之 一 ， 有 许多 很 好 的 
特性 。 它 与 MySQL Workbench 是 同 级 别 的 工具 ， 但 两 个 工具 都 有 
一 些 对 方 没有 的 特性 。SQLyog 只 能 在 微软 的 windows 下 使 用 ， 拥 
有 全 部 特性 的 版 本 需要 付费 ， 但 有 限制 功能 的 免费 版 本 。 关 于 
SQLyog 的 更 多 信息 可 以 参考 http:/www.webyog.como 


phpMyAdmin 


phpMyAdmin 是 一 个 流行 的 管理 工具 ， 运 行 在 Web 服 务 器 上 ， 
并 且 提 供 基于 浏览 器 的 MySQL 服 务 器 访问 接口 。 尽 管 基 于 浏览 
的 访问 有 时 很 好 ， 但 phpMyAdmin 是 个 大 而 复杂 的 工具 ， 曾 被 指 
责 有 许多 安全 问题 。 对 此 要 格外 小 心 。 我 们 建议 不 要 安装 在 任何 
可 以 从 互联 网 访问 的 地 方 。 更 多 信息 请 参考 
http://sourceforge.net/projects/phpmyadmin/o 


Adminer 


Adminer 是 个 基于 浏览 器 的 安全 的 轻 量 级 管理 工具 ， 它 与 
phpMyAdmin 同 类 。 其 开发 者 将 其 定位 为 pppMyAdmin 的 更 好 的 蔡 
代 品 。 尽 管 它 看 起 来 更 安全 ， 但 我 们 仍 建议 安装 在 任何 可 公开 访 
问 的 地 方 时 要 谨慎 。 更 多 详情 可 参考 http://www.adminer.orgo 


16.2 ”命令 行 工具 集 


MySQL 包含 了 一 些 命令 行 工 具 集 ， 例 如 mysqladmin 和 
mysqlcheck。 这 些 在 MySQL 手 册 上 都 有 提 及 和 记录 。MySQL 社 区 同样 
创建 了 大 量 高 质量 的 工具 包 ， 并 有 很 好 的 文档 支撑 这 些 实 用 工具 集 。 


Percona Toolkit 


Percona Toolkit 是 MySQL 管 理 员 必 备 的 工具 包 。 它 源 自 Baron 
早期 的 工具 包 Maatkit 和 Aspersa， 很 多 人 认为 这 两 个 工具 应 该 是 正 
式 的 MySQL 部 署 必须 强制 要 求 使 用 的 。Percona Toolkit 包 括 许 多 
针对 类 似 日 志 分 析 、 复 制 完 整 性 检测 、 数 据 同步 、 模 式 和 索引 分 
析 、 查 询 建 议和 数据 归档 目的 的 工具 。 如 果 刚 开始 接触 MySQL， 
我 们 建议 首先 学 习 这 些 关 键 的 工具 : pt-mysql-summary、pt-table- 
checksum 、 pt-table-sync 和 pt-query-digest。 更 多 信息 可 参考 
http://www.percona.com/software/o 


Maatkit and Aspersa 


这 两 个 工具 约 从 2006 年 以 某 种 形式 出 现 ， 两 者 都 被 认为 是 
MySQL 用 户 的 基本 工具 。 它 们 现在 已 经 并 入 Percona Toolkit. 


The openark kit 


Shlomi Noach 的 openark kit 
(http://code.openark.org/forge/openark-kit) 包含 了 可 以 用 来 做 一 
系列 管理 任务 的 Python 脚本 。 


MySQL Workbench 工 具 集 


MySQL Workbench 工 具 集 中 的 某 些 工具 可 以 作为 单独 的 
Python 脚本 使 用 。 可 参考 https://launchpad.net/mysql-utilitieso 


除了 这 些 工具 外 ， 还 有 其 他 一 系列 没有 太 正 式 包 装 和 维护 的 工 
具 。 许 多 杰出 的 MySQL 社 区 成 员 时 不 时 地 贡献 工具 ， 其 中 大 多 数 托管 


在 他 们 自己 的 网 站 或 MySQL Forge (http:// forge.mysql.com) Eo FLA 
通过 不 时 地 查看 Planet MySQL 博客 聚合 器 获取 大 量 的 信息 

(hitp://planet.mysql.com) ， 但 不 幸 的 是 这 些 工 具 没 有 一 个 集中 的 目 
录 。 


16.3 SQL 实用 集 


服务 器 本 身 也 内 置 有 一 系列 免费 的 附加 组 件 和 实用 集 可 以 使 用 ; 
其 中 一 些 确实 相当 强大 。 


common_schema 


Shlomi Noach 的 common_schema 项 目 
(http://code.openark.org/forge/common_schema) 是 一 套 针 对 服务 


器 脚本 化 和 管理 的 强大 的 代码 和 视图 。common_schema 对 于 
MySQL 好 比 jQuery 对 于 JavaScript。 


mysql-sr-lib 


Giuseppe Maxia 为 MySQL 创 建 了 一 个 存储 过 程 的 代码 库 ， 可 
以 在 http:/www.nongnu.org/mysql-sr-lib/ 找 到 。 


MySQL UDF 仓 库 


Roland Bouman 建 立 了 一 个 MySQL 自 定义 函数 的 收藏 馆 ， 可 
以 在 http://www. mysqludforg 获 取 。 


MySQL Forge 


在 MySQL Forge 上 (http://forge.mysql.com) ， 可 以 找到 上 百 
个 社区 贡献 的 程序 、 脚 本 、 代 码 片断 、 实 用 集 和 技巧 及 陷阱 。 


16.4 ”监测 工具 


以 我 们 的 经 验 来 看 ， 大 多 数 MySQL 商 店 需要 提供 两 种 类 型 的 监测 
TA: 健康 监测 工具 一 一 检测 到 异常 时 告警 一 一 和 为 趋势 、 诊 断 、 间 
题 排 查 、 容 量规 划 等 记录 措 标 的 工具 。 大 多 数 系统 仅 在 这 些 任务 中 的 
一 个 方面 做 得 很 好 ， 而 不 能 两 者 兼顾 。 更 不 乎 的 是 ， 有 十 几 种 工具 可 
选 ， 使 得 评估 和 选择 一 款 适 合 的 工具 非常 耗 时 。 


许多 监控 系统 不 是 专门 为 MySQL 服 务 器 设计 。 它 们 是 通用 系统 ， 
用 于 周期 性 地 检测 许多 种 类 型 的 资源 ， 从 机 器 到 路 由 再 到 软件 (例如 
MySQL) 。 它 们 一 般 有 某 些 类 型 的 插件 架构 ， 经 常会 伴随 有 一 些 
MySQL 插 件 。 


一 般 会 在 专用 服务 器 上 安装 监控 系统 来 监测 其 他 服务 器 。 如 果 是 
监控 重要 的 系统 ， 它 很 快 会 变 成 架构 中 至 天 重要 的 一 部 分 ， 因 此 可 能 
需要 采取 额外 的 步 又 ， 例 如 做 监控 系统 本 身 的 灾 备 。 


16.4.1 ”开源 的 监控 工具 


下 面 是 一 些 最 受 欢 迎 的 开源 集成 监控 系统 。 


Nagios 


Nagios (http:/www.nagios.org) 也 许 是 开源 世界 中 最 流行 的 
问题 检测 和 告警 系统 。 它 周期 性 检测 监控 的 服务 器 并 将 结果 与 默 
认 或 自 定 义 的 阅 值 相 比 较 。 如 果 结 果 超 出 了 限制 ，Nagios 会 执行 
某 个 程序 并 且 (或 ) 把 问题 的 告警 发 给 某 些 人 。Nagios 的 通信 和 
告警 系统 可 以 将 告警 发 给 不 同 的 联系 人 ， 改 变 告 警 ， 或 根据 一 天 
中 的 时 间 和 其 他 条 件 将 其 发 送 到 不 同 的 位 置 ， 并 且 对 计划 内 的 宕 
机 可 以 特殊 处 理 。Nagios 同 样 理解 服务 之 间 的 依赖 ， 因 此 ， 如 果 
是 因为 中 间 的 路 由 层 宕 机 或 者 主机 本 身 宕 机 导致 MySQL 实 例 不 可 
用 ，Nagios 不 会 发 送 告 警 来 烦 你 。 


Nagios 能 将 任何 一 个 可 执行 文件 以 插件 形式 运行 ， 只 要 给 予 
其 正确 参数 就 可 得 到 正确 输出 。 因 此 ，Nagios 插 件 在 多 种 语言 
都 存在 ， 例 如 shell、Perl、Python、Ruby 和 其 他 脚本 语言 。 就 算 找 
到 一 个 能 真正 满足 你 需求 的 插件 ， 目 己 创建 一 个 也 很 简单 。 一 
个 插件 只 需要 接收 标准 的 参数 ， 以 一 个 合适 的 状态 退出 ， 然 后 选 
择 性 地 打印 Nagios 捕 获 的 输出 。 


然而 ，Nagios 也 有 一 些 严重 的 缺点 。 即 使 你 很 了 解 它 ， 也 仍 
然 难以 维护 。 它 将 所 有 配置 保存 在 文件 而 不 是 数据 库 中 。 文 件 有 
一 个 特别 容易 出 错 的 语法 ， 当 系统 增长 和 发 展 时 ， 修 改 配 置 文 件 
就 很 费事 。Nagios 可 扩展 性 并 不 好 ;你 可 以 很 容易 地 写 出 监控 插 
件 ， 但 这 也 就 是 你 能 够 做 的 一 切 。 最 后 ， 它 的 图 形 化 、 趋 势 化 和 
可 视 化 能 力 都 有 限 。Nagios 将 一 些 性 能 和 其 他 数据 存储 到 MySQL 
服务 器 中 ， 一 般 从 中 生成 图 形 ， 但 并 不 像 其 他 一 些 系统 那么 灵 
活 。 因 为 不 同 “ 政 见 ” 的 原因 ， 使 得 上 面 所 有 的 问题 继续 变 得 更 
糟 。 因 为 或 真实 、 或 脐 测 的 涉及 代码 、 参 与 者 的 问题 ，Nagios 至 
少 分 化 出 了 两 个 分 支 。 两 个 分 支 的 名 字 分 别 是 Opsview 


(http:/www.opsview.com) 和 和 Icinga (http://www.icinga.org) o © 
们 比 Nagios 更 受到 人 们 的 杀 睐 。 


有 一 些 专门 介绍 Nagios 的 书籍 ; 我 们 倾向 于 Wolfgang Barth 的 
Nagios System and Network Monitoring (No Starch 出 版 公司 ) 。 


Zabbix 


Zabbix 是 一 个 同时 支持 监控 和 指标 收集 的 完整 系统 。 例 如 ， 
它 将 所 有 配置 和 其 他 数据 存储 到 数据 库 而 不 是 配置 文件 中 。 它 存 
储 了 比 Nagios 更 多 的 数据 类 型 ， 因 而 可 以 得 到 更 好 的 趋势 和 历史 
报表 。 其 网 络 画 图 和 可 视 能 力也 比 Nagios 更 强 ， 配 置 更 简单 ， 更 
灵活 ， 且 更 具 可 扩展 性 。 可 参考 http://www.zabbix.com 获 取 更 多 信 
Bo 


Zenoss 


Zenoss 是 用 Python 写 的 ， 拥 有 一 个 基于 浏览 器 的 用 户 界 面 ， 
使 用 了 Ajax， 这 使 它 更 快 和 更 高 效 。 它 可 以 自动 发 现 网 络 上 的 资 
源 ， 并 将 监控 、 告 警 、 趋 势 、 绘 图 和 记录 历史 数据 整合 到 了 一 个 
统一 的 工具 中 。Zenoss 默 认 使 用 SNMP 来 从 远程 服务 器 上 收集 数 
据 ， 但 也 可 以 使 用 SSH， 并 且 支 持 Nagios 插 件 。 更 多 信息 请 参考 


http://www. zenoss.como 
Hyperic HQ 


Hyperic HQ 是 一 个 基于 Java 的 监控 系统 ， 比 起 同 级 别 的 其 他 
大 部 分 系统 ， 它 更 称 得 上 是 企业 级 监控 。 像 Zenoss 一 样 ， 它 可 以 


自动 发 现 网 络 上 的 资源 和 支持 Nagios 插 件 ， 但 它 的 逻辑 组 织 和 架 
构 不 同 ， 有 点 “笨重 *。 更 多 信息 可 参考 http:Mwww.jhyperic.como 


OpenNMS 


OpenNMS 也 是 用 Java 开 发 ， 有 一 个 活跃 的 开发 社区 。 它 拥有 
常规 的 特性 ， 例 如 监控 和 告警 ， 但 同样 也 增加 了 绘图 和 趋势 功 
能 。 它 的 目标 是 高 性 能 、 可 扩展 、 自 动 化 和 灵活 。 像 Hyperic 一 
样 ， 它 也 致力 于 为 大 型 和 关键 系统 做 企业 级 监控 。 更 多 信息 请 参 
考 http:/www.opennms.orgo 


Groundwork Open Source 


Groundwork Open Source 用 一 个 可 移植 的 接口 把 Nagios 和 其 他 
几 个 工具 整合 到 了 一 个 系统 中 。 对 于 这 个 工具 最 好 的 描述 是 : 如 
果 你 是 Nagios、Cacti 和 其 他 几 个 工具 方面 的 专家 ， 并 且 伦 了 许多 
时 间 将 它们 整合 一 起 ， 那 很 可 能 你 是 在 闭门造车 。 更 多 信息 可 参 
考 http://www.gwos.como 


相 比 于 集 所 有 功能 于 一 身 的 系统 ， 还 有 一 系列 软件 专注 于 收集 指 
标 和 画图 以 及 可 视 化 ， 而 不 是 进行 性 能 监控 检查 。 他 们 中 有 很 多 是 建 
立 在 RRDTool (pttp:Mwwwrrdtool.org) 之 上 上， 存储 时 序数 据 到 轮 询 数 
据 库 (RRD) 文件 中 。RRD 文 件 自动 聚集 输入 数据 ， 对 没有 预期 传送 
的 输入 值 进 行 插值 ， 并 有 强大 的 绘图 工具 可 以 生成 漂亮 有 特色 的 图 。 
有 很 多 基于 RRDTool 的 系统 ， 下 面 是 其 中 最 受 欢 迎 的 几 个 。 


MRTG 


Multi Router Traffic Grapher 或 称 MRTG 

(http://oss.oetiker.ch/mrtg/) ， 是 典型 的 基于 RRDTool 的 系统 。 最 

初 是 为 记录 网 络 流量 而 设计 的 ， 但 同样 可 以 扩展 到 用 于 对 其 他 指 
标 进行 记录 和 绘图 。 


Cacti 


Cacti (http:/Awww.cacti.net) 可 能 是 最 流行 的 基于 RRDTool 的 
系统 。 它 采用 PHP 网 页 来 与 RRDTool 进 行 交 互 ， 并 使 用 MySQL 数 
据 库 来 定义 服务 器 、 插 件 、 图 像 等 。 因 为 是 模板 驱动 ， 故 而 可 以 
定义 模板 然后 应 用 到 系统 上 。Baron 为 MySQL 和 其 他 系统 写 了 一 
组 非常 流行 的 模板 ;更 多 信息 请 参 
http://code.google.com/p/mysql-cacti-templates/。 这 些 也 已 经 被 移植 
到 Munin、OpenNMS 和 Zabbix。 


Ganglia 


Ganglia (http://ganglia.sourceforge.net) 与 Cacti 类 似 ， 但 是 为 
监控 集群 和 网 格 系统 而 设计 ， 所 以 可 以 汇总 查看 许多 服务 器 的 数 
据 ， 如 果 需 要 也 可 以 细 分 查看 单 台 服务 器 的 详细 数据 。 


Munin 


Munin (http:/munin.projects.linpro.no ) 收集 数据 并 存 入 
RRDTool 中 ， 然 后 以 几 个 不 同 级 别 的 粒度 生成 数据 图 。 它 从 配置 
中 生成 静态 HTML 文 件 ， 因 此 可 以 很 容易 地 浏览 和 查看 趋势 。 定 
义 一 个 图 形 较 容易 ; 只 需要 创建 一 个 插件 脚本 ， 其 命令 行 帮助 输 
出 有 一 些 Munin 可 以 识别 的 特别 语法 的 画图 指令 。 


基于 RRDTool 的 系统 有 些 限 制 ， 例 如 不 能 用 标准 查询 语言 来 查询 
存储 的 数据 ， 不 能 永久 保留 数据 ， 存 在 某 些 数据 不 能 轻松 地 使 用 简单 
计数 器 和 标准 数值 表示 的 问题 ， 需 要 预先 定义 指标 和 图 形 等 。 理 想 情 
况 下 ， 我 们 需要 的 监控 系统 可 以 接受 任何 发 送 给 它 的 指标 ， 而 不 需要 
预先 进行 定义 ， 并 且 后 续 可 以 绘制 任意 需要 的 图 形 ， 也 不 需要 预先 进 
行 定 义 。 可 能 我 们 所 看 到 的 最 接近 的 系统 是 Graphite 
(http://graphite.wikidot.com) 。 


这 些 系统 都 可 以 用 来 对 MySQL 收 集 、 记 录 和 绘制 数据 图 表 并 且 生 
成 报表 ， 有 着 不 同 程度 的 灵活 性 ， 目 标 也 稍微 有 些 不 同 。 但 它们 都 缺 
乏 真 正 可 以 在 问题 出 现时 及 时 告警 的 灵活 性 。 


我 们 提 到 的 大 多 数 系统 的 主要 问题 是 ， 它 们 明显 是 由 那些 因为 现 
有 系统 不 能 满足 他 们 所 有 需求 的 人 设计 的 ， 因 此 他 们 又 重复 设计 了 另 
一 个 无 法 完全 满足 其 他 人 的 所 有 需求 的 系统 。 大 部 分 这 样 的 系统 都 有 
一 些 基础 的 限制 ， 例 如 使 用 一 个 奇怪 的 数据 模型 存储 内 部 数据 ， 而 导 
致 在 很 多 场合 都 无 法 很 好 地 工作 。 在 很 多 时 候 ， 这 都 令 人 诅 形 ， 使 用 
这 些 系统 都 像 是 把 一 个 圆 形 的 钉子 钉 到 了 一 个 方形 的 洞 里 面 。 


16.4.2 ”商业 监控 系统 


尽管 我 们 知道 许多 MySQL 用 户 热衷 使 用 开源 工具 ， 但 也 有 许多 人 
愿意 为 合适 的 软件 买单 ， 只 要 这 些 软 件 可 以 让 工作 更 好 地 完成 ， 为 他 
们 贡 省 时 间 ， 减 少 烦恼 。 下 面 是 一 些 可 以 利用 的 商业 选 件 。 


MySQL Enterprise Monitor 


MySQL Enterprise Monitor 包 含 在 Oracle 的 MySQL 支持 服务 
中 。 它 将 监控 、 指 标 和 画图 、 咨 询 服务 和 查询 分 析 等 特性 整合 到 
了 一 个 工具 中 。 通 过 在 服务 器 上 使 用 agent 来 监测 状态 计数 器 (也 
包含 操作 系统 的 关键 指标 ) 。 它 能 以 两 种 方式 抓 取 查 询 : 通过 
MySQL 代 理 (MySQL Proxy) ， 或 使 用 合适 的 MySQL 连 接 器 ， 例 
如 Java 的 ConnectorJ 或 PHP 的 MySQLi。 尽 管 是 为 监控 MySQL 而 设 
计 的 ， 但 某 种 程度 上 也 可 以 进行 扩展 。 同 样 ， 这 个 工具 也 无 法 监 
控 基 础 架构 中 所 有 的 服务 器 和 所 有 的 服务 。 更 多 信息 请 参考 


http://www.mysql.com/products/enterprise/monitor. html 
MONyog 


MONYyog (http:/www.webyog.com) 是 一 个 运行 在 桌面 上 的 基 
于 浏览 器 且 无 agent 的 监控 系统 。 它 会 启动 一 个 HITP 服 务 器 ， 然 
后 就 可 以 通过 浏览 器 来 使 用 此 工具 。 


New Relic 


New Relic (http:/newrelic.com) 是 一 个 托管 式 的 软件 即 服务 
(Saas) 的 应 用 性 能 管理 系统 ， 它 可 以 分 析 整 个 应 用 的 性 能 ， 从 
应 用 代码 (采用 Ruby，PHP，Java 和 其 他 语言 ) 到 运行 在 浏览 
上 的 JavaScript， 到 数据 库 的 SQL 调 用 ， 甚 至 是 服务 器 的 磁盘 空 
间 ，CPU 利 用 率 和 其 它 指 标 。 


Circonus 


Circonus (https://circonus.com) 是 一 个 源 于 OmniTI 的 托管 式 
的 软件 即 服务 (SaaS) 的 指标 和 告警 系统 。 通 过 agent 从 一 个 或 多 


个 服务 器 上 收集 指标 并 转发 到 Circonus， 然 后 就 可 以 通过 一 个 基 
于 浏览 器 的 仪表 盘 来 查看 。 


Monitis 


Monitis (http://monitis.com) 是 另外 一 个 云 托管 式 的 软件 即 服 
务 (SaaS) 的 监控 系统 。 它 被 设计 成 监控 “一 切 ”»， 这 意味 着 它 有 
点 普遍 性 。 它 有 一 个 入 门 级 的 免费 版 Monitorus 
(http://mon.itorus) ， 也 有 支持 MySQL 的 插件 。 


Splunk 


Splunk (http:/www.splunk.com) 是 一 个 日 志 聚 集 器 和 搜索 引 
擎 ， 可 以 帮助 获得 环境 中 所 有 机 器 生成 的 数据 并 进行 运营 分 析 。 


Pingdom 


Pingdom § (http:/Wwww.pingdom.com) 从 世界 的 多 个 位 置 来 监 
控 网 站 的 可 用 性 和 性 能 。 实 际 上 有 许多 像 Pingdom 一 样 的 服务 ， 
我 们 并 不 需要 特别 推荐 某 一 个 这 样 的 服务 ， 但 是 我 们 确实 建议 使 
用 一 些 外 部 的 监控 服务 ， 以 便 让 你 在 网 站 不 可 用 时 能 够 及 时 得 到 
通知 。 很 多 类 似 的 服务 远 不 止 Ping 或 获取 网 页 。 


还 有 许多 其 他 的 商业 监控 工具 一 一 我 们 可 以 凭 印象 列举 出 十 几 个 
或 更 多 。 对 所 有 监控 系统 而 言 ， 要 注意 的 一 点 是 它们 对 服务 器 的 影 
响 。 有 些 工具 相当 直 白 ， 因 为 它们 由 一 些 没有 实际 的 大 型 高 负载 
MySQL 系 统 经 验 的 公司 设计 。 例 如 ， 我 们 不 止 一 次 通过 禁止 每 分 钟 对 
所 有 的 数据 库 执 行 一 次 SHOW TABLE STATUS 的 监控 功能 来 解决 突 发 


事件 。 (这 个 命令 在 高 IO 限制 的 系统 上 特别 有 破坏 性 。) 频繁 查询 
INFORMATION_SCHEMA 表 的 工具 也 会 导致 负面 影响 。 


16.4.3 ”Innotop 的 命令 行 监控 


有 一 些 基于 命令 行 的 监测 工具 ， 它 们 大 部 分 在 某 种 方面 模拟 了 
UNIX 中 的 tp 工具 。 其 中 最 精致 和 最 胜任 的 是 innotop 
(http://code.google.com/p/innotop/) ， 我 们 将 详细 探讨 。 此 外 ， 还 有 
几 个 其 他 的 工具 ， 例 如 mtop (http:/mtop.sourceforge.net) 、 mytop 
(http://jeremy.zawodny.com/mysql/mytop/) 和 一 些 基于 网 页 的 mytop 克 
隆 版 本 。 


尽管 mytop 是 MySQL 上 最 原始 的 top 克 隆 ， 但 innotop 比 mytop 拥 有 更 
多 功能 ， 这 也 是 我 们 看 重 innotop 的 原因 。 


本 书 的 作者 之 一 Balon Schwartz 编 写 了 innotop。 它 展示 了 服务 器 正 

在 发 生 事情 的 实时 更 新 视图 。 别 去 理会 它 的 名 称 ， 实 际 上 它 不 仅仅 用 

于 监控 InnoDB， 还 可 以 监控 MySQL 任 何其 他 的 方面 。 它 也 能 同时 监控 
多 个 MySQL 实例 ， 极 具 可 配置 性 和 可 扩展 性 。 


它 的 功能 特性 包括 以 下 这 些 : 


事务 列表 可 以 显示 InnoDB 当前 的 全 部 事务 
查询 列表 可 以 显示 当前 正在 运行 的 查询 。 

可 以 显示 当前 锁 和 锁 等 待 的 列表 。 

以 相对 值 显示 服务 器 状态 和 变量 的 汇总 信息 。 


。 有 多 种 模式 可 用 来 显示 InnoDB 内 部 信息 ， 例 如 缓冲 区 、 死 锁 、 外 
键 错误 、1/O 活动 情况 、 行 操作 、 信 号 量 ， 以 及 其 他 更 多 的 内 
合 。 

复制 监控 ， 将 主 服务 器 和 从 服务 器 的 状态 显示 在 一 起 。 

显示 任意 服务 器 变量 的 模式 。 

服务 器 组 可 以 更 方便 地 组 织 多 台 服 务 器 。 

在 命令 行 脚本 下 可 以 使 用 非 交 互 式 模式 。 


innotop 的 安装 很 容易 ， 可 以 从 操作 系统 的 软件 仓库 安装 ， 也 可 以 
从 http:/code.google.com/p/innotop/ 下 载 到 本 地 ， 然 后 解压 缩 ， 运 行 标 
准 的 make install 安 装 过 程 。 


perl Makefile.PL 


make install 


一 旦 安装 完成 ， 就 可 以 在 命令 行 里 执行 innotop， 然 后 它 会 引导 你 
完成 连接 到 MySQL 实 例 的 过 程 。 引 导 过 程 会 读 取 ~/.my.cnf 选 项 文件 ， 
这 样 ， 除 了 输入 服务 器 的 主机 名 和 按 几 次 Enter 键 之 外 ， 什 么 都 不 用 
做 。 连 接 完成 以 后 ， 就 处 在 T (InnoDB Transaction) 模式 了 ， 这 时 ， 
应 该 可 看 到 InnoDB 事务 列表 ， 如 图 16-1 所 示 。 


ego x 
:-), 42.87 QPS, 21 thd, [4] 


sed Bufs Txns MaxTxnTime LStrets 
94 49; 26 四 


ser Host Txn Status Time Undo Query Text 


图 16-1: 处 在 T (InnoDB Transaction) 模式 的 innotop 


默认 情况 下 ，innotop 采 用 过 滤器 来 减少 零乱 的 信息 
所 有 信息 ， 都 可 以 定义 自己 的 过 滤器 或 者 定制 内 部 的 过 滤器 ) 。 
16-12, KZE CARIS S , a E a 
务 。 可 以 按 i 键 茶 挤 过 滤 ， 让 数量 众多 的 事务 信息 填 满 整个 屏幕 


a 头 部 信息 里 
` 显示 一 些 InnoDB 的 总 体 信 = 例如 ， 历史 清 单 的 长 度 、 还 未 清 除 的 
InnoDB 事务 数目 、 缓 冲 池 中 脏 缓 冲 所 占 的 百分比 等 。 


你 要 按 的 第 一 个 键 应 该 是 问号 (?) ， 以 查看 帮助 信息 。 e 屏 
幕 上 显示 出 的 帮助 内 容 会 根据 当前 模式 的 不 同 而 不 同 ， 但 是 每 一 个 活 
动 的 键 都 总 是 会 显示 出 来 ， Oe 图 16-2 显 
示 的 是 T 模 式 下 的 帮助 信息 。 


InnoDB Txns (? for help) srvr 1, 25+2]1; 44: aL, Trane 10s :-), 32.47 QPS, 21 thd, [^ 


k kill a transaction's connection 
c Hi next connection 


s sort column 


图 16-2: innotop 帮助 信息 


在 这 里 不 会 详细 讲解 所 有 的 模式 ， 但 还 是 可 以 从 帮助 信息 里 看 
出 ，innotop 有 许 许多 多 的 功能 特性 。 


这 里 唯一 要 提 太 的 是 一 些 基本 的 自 定义 功能 ， 告 诉 你 如 何 监 控 想 
要 监控 的 信息 。innotop 的 强大 功能 之 一 就 是 能 够 解释 用 户 定 义 的 表达 
式 ， 例 如 Uptime/Questions 是 生成 每 秒 钟 的 查询 指标 。 它 会 显示 自 服务 
器 启动 以 来 和 二 或 自 上 次 采样 之 后 递增 累加 的 结果 值 。 


这 使 得 往 显 示 表 格 里 添加 自己 的 列 方便 很 多 。 例 如 ， 在 Q (Query 
List) 模式 下 ， 头 部 信息 能 显示 出 服务 器 的 一 些 总 体 信 息 。 让 我 们 看 
看 眶 么 将 它 修 改 一 下 ， 使 它 能 显示 出 索引 键 缓 存 有 多 满 。 启 动 
innotop， 按 下 Q 键 进入 Q 模 式 。 这 时 的 操作 结果 看 起 来 像 图 16-3 一 样 。 


al - baron@ke = eo 
sryr 1, 25+21:53:43, 40.47 QPS, 24 thd, 5.0.40-log|* 


图 16-3: Q 模 式 (查询 列表 ) 下 的 innotop 


这 个 屏幕 截图 只 截取 了 一 部 分 ， 因 为 在 这 个 练习 里 ， 我 们 对 碍 询 
列表 没有 兴趣 ， 我们 只 关心 头 部 信息 。 


头 部 显示 了 “当前 ”统计 (统计 自从 上 次 innotop 用 服务 器 上 的 新 数 
据 刷 新 后 的 累计 增 量 ) 和 “总 计 ” 统 计 (统计 自 MySQL 服 务 器 启动 以 来 
所 有 的 活动 ， 这 个 实例 中 是 25 天 前 ) 。 头 部 的 每 一 列 都 是 来 自 SHOW 
STATUS 和 SHOW VARIABLES 相 对 应 的 变量 值 。 图 16-3 中 显示 的 头 部 
是 内 建 的 ， 但 也 很 容易 增加 自 定义 的 。 需 要 做 的 只 是 增加 一 列 到 头 音 
“ 表 ”。 按 ^ 键 来 打开 表 编 辑 器 ， 然 后 在 提示 符 后 输入 q_header 来 编辑 头 
部 表 (图 16-4) 。 由 于 内 置 有 Tab 键 自动 补 齐 功能 ， 因 此 可 以 敲 入 q 然 
后 按 Tab 键 来 补充 完成 整个 词 。 


图 16-4: 增加 一 个 头 部 (开始 ) 


在 此 之 后 ， 你 将 会 看 到 Q 模 式 头 部 的 表 定 义 (图 16-5) 。 该 表 定 
义 显 示 了 表 的 列 。 第 一 列 被 选中 。 我 们 可 以 移动 选项 ， 重 新 排序 和 编 
辑 列 ， 还 可 做 其 他 的 很 多 事情 ( 按 ? 键 可 以 看 到 一 个 完整 的 列表 ) , 但 
我 们 只 打算 创建 一 个 新 列 。 按 n 键 然后 输入 列 名 (图 16-6) 。 


Fo 
Query List (? for help) 


= o west: eo x 
sryr l, 25+21:53:53, 44,14 QPS, 24 thd, 5.0.4 


0-1logl*| 


Editing table definition for Q-mode Header. Press ? for help, q to quit. 


on from which the data 
le when 
Se $cur->{Threads_co 


How many 


ved by t 
sent by the s 


图 16-6: 增加 头 部 (命名 列 ) 


接着 ， 输 入 列 的 头 部 ， 它 将 在 列 的 顶部 显示 (图 16-7) 。 最 后 ， 
选择 列 源 。 这 是 一 个 innotop 内 部 编译 为 水 数 的 表达 式 。 你 可 以 使 用 
SHOW VARIABLES 和 SHOW STATUS 中 对 应 变量 的 名 字 ， 就 像 是 方程 
中 的 变量 一 样 。 我 们 使 用 了 一 些 括号 和 Perl 式 “或 ”默认 值 以 防止 被 零 


除 ， 除 此 而 外 这 个 等 式 相 当 直 白 。 我 们 同样 可 以 使 用 innotop 中 的 
percent() 转 换 来 以 百分比 形式 格式 化 结果 列 ; 更 多 信息 请 参考 innotop 
的 文档 。 图 16-8 显 示 了 这 个 表达 式 。 


((Key_blocks_unused * key cache block size) / { 


图 16-8: 增加 头 部 (要 计算 的 表达 式 ) 


按 Enter 键 ， 你 将 会 和 之 前 一 样 看 到 表 的 定义 ， 但 是 在 底部 有 了 新 
增加 的 列 。 按 几 次 + 键 将 它 往 列表 上 方 移 ， 挨 着 key_buffer_hit 列 ， 然 后 
按 q 键 退出 表 编 辑 器 。 瞧 ， 新 的 列 诅 在 KCacheHit 和 BpsImn 之 间 (图 16- 
9) 。 可 以 通过 定制 inotop 很 容易 地 监控 想 要 的 信息 。 如 果 它 真 的 不 
能 满足 你 的 需求 ， 甚 至 还 可 以 编写 对 应 的 插件 。 更 多 文档 见 
http://code.google.com/p/innotop/o 


= b ake e a 
List (? for help) srvr_l, ae :21， 17. 358.81 QPS, 31 thd, 5.0.40-log/* 


图 16-9: 增加 头 (AR) 


16.5 ”总结 


好 的 工具 对 管理 MySQL 至 关 重 要 。 推 荐 使 用 一 些 已 经 可 用 、 广 泛 
测试 过 、 流 行 的 工具 ， 例 如 Percona Toolkit (旧名 Maatkit) 。 当 接触 新 
的 服务 器 时 ， 实 践 中 我 们 首先 要 做 的 是 运行 pt-summary 和 pt-mysql- 
summary. 如果 在 一 侣 服务器 上 工作 ， 可 能 需要 在 另外 一 个 终 痛 下 运 
行 innotop 来 观察 它 以 及 任何 相关 的 服务 器 。 


监控 工具 是 另外 一 个 更 复杂 的 话题 ， 这 是 由 于 它们 对 于 管理 非常 
重要 。 如 果 你 是 一 名 开 产 倡导 者 ， 想 使 用 开 产 的 监控 系统 ， 或 许可 以 
尝试 Nagios 结 合 带 Baron 的 Cacti 模 板 的 Cacti， 或 者 尝试 Zabbix， 前 提 
是 作 不 介意 复杂 的 接口 。 如 果 想 要 监控 MySQL 的 商业 工具 ， MySQL 
Enterprise Monitor 可 以 胜任 ， 我 们 知道 有 很 多 用 户 使 用 得 很 好 。 如 果 
想 监控 整个 环境 和 其 中 所 有 软 硬 件 信息 ， 你 可 能 需要 自己 去 做 一 些 调 
查 一 一 这 个 话题 超出 了 本 书 讨论 的 范围 。 


附录 A ”MySQL 分 支 与 变种 


在 第 1 章 中 ， 我 们 已 经 讨论 过 MySQL 的 历史 : 先 被 Sun 公 司 收 购 ， 
然后 再 被 Oracle 公 司 收 购 ， 以 及 它 怎 样 成 功 度 过 了 这 些 管理 职务 上 的 
变动 。 这 个 故事 有 太 多 事情 可 讲 。MySQL 不 再 只 可 从 Oracle 获 取 。 在 
两 次 转让 的 过 程 中 ， 出 现 了 好 几 个 MySQL 变 种 。 尽 管 大 部 分 人 都 只 愿 
意 要 Oracle“ 官 方 ” 版 本 的 MySQL ， 但 这 些 变种 非常 重要 ， 并 且 对 所 有 
MySQL 用 户 产 生 了 一 个 很 大 的 改变 一 一 甚至 是 那些 从 来 没有 打算 使 用 
它们 的 用 户 。 


在 过 去 几 年 里 ， 出 现 了 几 个 MySQL 变 种 ， 但 到 目前 为 止 主 要 有 三 
个 久 经 考验 的 主流 变种 : Percona Server，MariaDB 和 Drizzle。 它 们 都 
有 活跃 的 用 户 社区 和 某 种 程度 上 的 商业 支持 ， 均 由 独立 的 服务 供应 商 
支持 。 


作为 Percona Server 的 创建 者 ， 我 们 有 一 定 的 倾向 性 ， 但 我 们 认为 
这 个 附录 相当 客观 ， 因 为 我 们 对 所 有 的 MySQL 变 种 都 提供 服务 、 支 
持 、 咨 询 、 培 训 和 工程 部 署 。 我 们 还 邀请 了 Drizzle 的 创建 者 Brian Aker 
和 MariaDB 的 创建 者 Monty Widenius 来 参与 到 这 个 附录 的 编写 ， 因 此 这 
并 非 我 们 一 家 之 言 。 


Percona Server 


Percona Server (http:/www.percona.com/software/) 因 我 们 致力 于 
解决 客户 问题 而 衍生 。 在 本 书 的 第 二 版 中 ， 我 们 提 到 了 我 们 为 改进 
MySQL 服 务 器 的 日 志方 法 所 做 的 补丁 。 那 正 是 Percona Server 的 起 产 。 
当 遇 到 用 其 他 方法 都 不 能 解决 的 问题 时 ， 我 们 就 去 修改 服务 器 源码 。 


Percona Server 有 三 个 主要 的 目标 。 
透明 


增加 允许 用 户 更 紧密 地 查看 服务 器 内 部 信息 和 行为 的 方法 。 
包含 的 特性 有 类 似 SHOW STATUS 中 的 计数 器 ， 
INFORMATION_SCHEMA 中 的 表 ， 以 及 慢 查 询 日 志 中 特别 增加 
的 详细 信息 。 


性 能 


Percona Server 包 含 许 多 性 能 和 可 扩展 性 方面 的 改进 。 原 始 性 
能 非常 重要 ， 但 Percona Server 还 加 强 了 性 能 的 可 预测 性 和 稳定 
性 。 其 中 主要 集中 于 InnoDB。 


操作 灵活 性 


Percona Server 包 含 许多 移 除 限 制 的 特性 。 尽 管 某 些 限制 看 起 
来 不 起 眼 ， 但 这 些 限制 可 能 会 使 操作 人 员 和 系统 管理 员 在 让 
MySQL 作 为 架构 的 一 部 分 而 可 靠 并 稳定 运行 时 ， 感 到 非常 困难 。 


Percona Server 是 个 与 MySQL 向 后 兼容 的 替代 品 ， 它 尽 可 能 不 改变 
SQL 语法 、 客 户 端 /服务 器 协议 和 磁盘 上 的 文件 格式 。 外 任何 运行 在 
MySQL 上 的 都 可 以 运行 在 Percona Server 上 而 不 需要 修改 。 切 换 到 
Percona Server 只 需要 关闭 MySQL 和 启动 Percona Server， 不 需要 导出 和 
重新 导入 数据 。 切 换 回去 也 不 及 烦 ， 而 这 一 点 实际 上 非常 重要 : 许多 
问题 是 通过 临时 切换 解决 的 ， 使 用 增强 的 方法 来 诊断 ， 然 后 切 回 到 标 
准 MySQL。 


我 们 只 对 标准 MySQL 中 需要 并 且 可 以 产生 显著 好 处 的 地 方 做 改 
进 。 我 们 相信 大 部 分 用 户 坚 持 使 用 由 Oracle 发 行 的 MySQL 官 方 版 本 可 
能 是 最 好 的 选择 ， 并 且 努 力 与 原版 保持 尽 可 能 地 相同 。 


Percona Server 包 插 Percona XtraDB 存储 引擎 ， 即 改进 版 本 的 
InnoDB。 这 同样 是 个 向 后 兼容 的 替代 品 。 例 如 ， 如 果 创 建 一 个 使 用 
InnoDB 存 储 引 警 的 表 ，Percona Server 能 自动 识别 并 用 Percona XtraDB 
替代 之 。Percona XtraDB 同 样 包括 在 MariaDB 内 。 


Percona Server 的 一 些 改进 已 经 包括 在 MySQL 的 Oracle 版 本 中 ， 许 
多 其 他 改进 也 只 是 稍 作 修改 而 重新 实现 。 结 果 ，Percona Server 变 成 了 
许多 特性 的 “ 抢 鲜 ”版 ， 这 些 特性 随后 将 在 标准 MySQL 中 出 现 。Percona 
Server 在 5.1 和 5.5 版 本 中 的 许多 改进 可 能 要 在 MySQL 5.6 中 重新 实现 。 


MariaDB 


Sun KU MySQLIG, Monty Widenius， 这 位 MySQL 的 创建 者 ， 
sich pee eeu ate 他 成 立 了 Monty 程 序 公 司 ， 创 立 
了 MariaDB， 以 培养 一 个 “开放 的 开发 环境 以 鼓励 外 部 的 参与 ”。 
MariaDB 的 目标 是 社 ，Bug 修 复 和 许多 的 新 特性 一 一 特别 是 与 社 
区 开发 的 特性 相 集 成 。 再 引用 Monty 的 一 句 话 ，(2“MariaDB 的 远景 是 
面向 用 户 和 客户 驱动 ， 以 及 更 多 社区 的 补丁 和 插件 。” 


MariaDB 有 什么 不 同 呢 ? 与 Percona Server 相 比 ， 它 包括 了 更 多 对 
服务 器 的 扩展 。 (Percona Server 的 大 部 分 改变 是 在 于 Percona XtraDB 
存储 引擎 ， 而 不 是 服务 器 层 。) 例如 ， 有 许多 是 对 查询 优化 和 复制 的 
改变 。 它 使 用 Aria 存 储 引 擎 取代 了 MyISAM 来 存储 内 部 临时 表 (被 用 


于 复杂 的 查询 ， 例 如 DISTINCT 或 子 查 询 ) o Aria 最 初 叫 Maria， 在 不 
确定 的 Sun 时 代 是 打算 替代 InnoDB 的 。 它 是 MyISAM 的 月 演 安 全 的 版 
本 。 


除 Percona XtraDB 和 Aria 外 ，MariaDB 还 包括 许多 社区 的 存储 引 
擎 ， 例 如 SphinxSE 和 PBXT。 


MariaDB 是 原版 MySQL 的 超 集 ， 因 此 已 有 的 系统 不 需要 任何 修改 
就 可 以 运行 ， 就 像 Percona Server 一 样 。 然 而 ，MariaDB 对 有 些 场景 可 
以 更 好 地 胜任 ， 例 如 复杂 的 子 查询 或 多 表 关 联 。 它 同样 有 MyISAM 分 
段 的 键 缓存 ， 这 样 特性 使 得 MyISAM 在 现代 的 硬件 上 可 以 更 好 地 扩 
展 。 


也 许 MariaDB 的 最 佳 版 本 是 5.3， 在 写作 此 书 时 它 还 是 候选 发 布 状 
态 。 这 个 版 本 包含 许多 查询 优化 方面 的 工作 一 一 可 能 是 最 近 十 年 对 
MySQL 最 大 的 优化 。 它 增加 了 查询 执行 计划 ， 例 如 哈 希 联合 ， 并 且 修 
复 了 我 们 之 前 在 本 书 中 指出 的 MySQL 的 一 些 缺陷 ， 例 如 动态 列 、 基 于 
角色 的 访问 控制 和 微 秒 级 时 间 稚 的 支持 。 


关于 MariaDB 更 多 的 改进 可 参考 http:Mwww.askmontyorg 上 的 文档 
或 http://askmonty. org/blog/the-2-year-old-mariadb/ 和 
http://kb.askmonty.org/en/what-is-mariadb-53 FANS #324, 


Drizzle 


Drizzle 是 真正 的 MySQL 分 支 ， 而 非 只 是 个 变种 或 增强 版 本 。 它 并 
不 与 MySQL 兼 容 ， 尽 管区 分 上 还 并 不 是 大 相 径 庭 。 在 许多 场合 并 不 能 
简单 地 将 MySQL 后 端 替 换 为 Drizzle， 因 为 它 对 SQL 语法 修改 太 大 了 。 


Drizzle 创 建 于 2008 年 ， 致 力 于 更 好 地 服务 MySQL 用 户 。 其 创建 目 
标 是 更 好 地 满足 网 页 应 用 的 核心 功能 。 它 是 个 很 了 不 起 的 改进 ,与 
MySQL 相 比 更 简单 ， 选 择 更 少 ; 例如 ， 它 只 使 用 utf8 作 为 存储 字符 
集 ， 并 且 只 有 一 种 类 型 的 BLOB。 它 主要 针对 64 位 硬件 编译 ， 且 支持 
IPV6 网 络 。 


Drizzle 数 据 库 服务 器 的 一 个 关键 目标 是 消除 MySQL 上 异常 和 遗留 
的 行为 ， 例 如 声明 了 NOT NULL 列 但 发 现 数 据 库 中 莫名 其 妙 地 存储 了 
NULL。 你 可 以 在 MySQL 上 找到 的 差劲 的 实现 或 难 使 用 的 特性 已 经 被 
删除 ， 例 如 触发 器 、 查 询 缓 存 和 INSERT ON DUPLICATE KEY 
UPDATE。 


在 代码 层 ，Drizzle 构 建 于 一 个 精简 内 核 和 插件 的 微 核心 架构 之 
上 。 服 务 器 的 核心 比 起 MySQL 已 经 精简 许多 。 几 乎 任何 东西 都 是 插件 
一 一 甚至 类 似 SLEEPO 的 函数 。 这 使 得 Drizzle 在 源码 级 非 党 简单 并 非 
常 高 效 。 


Drizzle 使 用 了 诸如 Boost 的 标准 开源 库 ， 并 避 从 代码 、 构 建 架 构 和 
API 方 面 的 标准 。 它 对 类 似 复制 等 特意 使 用 了 Google 协 议 缓冲 公开 消 
息 格 式 ， 并 且 使 用 修改 版 的 InnoDB 作 为 标准 存储 引擎 。 


Drizzle 团 队 很 早 就 开始 着 手 做 服务 器 的 基准 测试 ， 用 基于 业界 标 
准 的 1024 个 线程 基准 来 评估 高 并 发 的 性 能 。 并 发 越 大 性 能 增加 越 高 ， 
对 性 能 改进 非常 大 。 

Drizzle 是 一 个 社区 开发 的 项 目 ， 在 开源 社区 比 MySQL 更 吸引 人 。 


该 服务 器 的 许可 证 是 纯 GPL 的 ， 没 有 双重 的 许可 证 。 然 而 ，MySQL 客 
户 端 一 服务 器 协议 依靠 一 个 基于 BSD 许 可 证 的 新 客户 端 库 完 成 ， 而 这 


对 于 开发 商业 系统 是 最 重要 的 一 个 方面 。 这 意味 着 你 可 以 通过 用 
Drizzle 的 客户 端 库 来 连 到 MySQL 的 方式 构建 一 个 专属 应 用 ， 并 且 不 需 
要 为 MySQL 客 户 端 库 购买 商业 许可 证 或 将 软件 基于 GPL 发 布 。MySQL 
的 libmysql 客 户 端 库 是 众多 公司 为 MySQL 购 买 商 业 许 可 证 的 最 主要 的 
原因 之 一 ， 没 有 这 个 链接 到 libpmysql 的 商业 许可 证 ， 这 些 公司 就 要 被 迫 
在 GPL 下 发 行 软件 。 而 这 不 再 必要 ， 因 为 现在 公司 可 以 使 用 Drizzle 的 
库 来 替代 。 


但 据 我 们 了 解 ，Drizzle 虽 已 在 某 些 产品 环境 下 部 署 但 还 没有 广泛 
应 用 。Drizzle 项 目的 理念 是 抛弃 向 后 兼容 的 束缚 ， 而 这 意味 着 相对 于 
迁移 一 个 已 有 的 应 用 而 言 ， 它 更 适合 新 的 应 用 。 


其 他 MySQL 变种 


现在 ， 或 曾经 ， 有 许多 MySQL 服 务 器 的 变种 。 许 多 大 型 公司 ， 例 
如 Google、Facebook 和 eBay， 都 维护 着 这 一 服务 器 的 修改 版 ， 以 完全 
匹配 其 需求 和 部 署 场景 。 许 多 源码 已 可 公开 获取 ; 也 许 最 著名 的 例子 
就 是 Facebook 和 Google 做 的 MySQL 补 丁 。 


另外 还 有 几 个 分 支 或 再 发 行 ， 例 如 OurDelta、DorsalSource， 还 有 
只 存在 了 很 短 一 段 时 间 的 Henrik Ingo 的 一 个 发 行 。 


最 后 ， 许 多 人 没有 意识 到 当 他 们 从 GNU/Linux 发 行 包 软 件 库 中 安 
装 MySQL 时 ， 其 实 获 取 的 是 一 个 修改 后 的 服务 器 版 本 一 一 在 某 些 场合 
下 ， 有 大 量 的 修改 。Red Hat 和 Debian (相应 的 Fedora 和 Ubuntu) 都 发 
行 了 非 标 准 版 本 的 MySQL，Gentoo 以 及 实际 上 任何 其 他 GNU/Linux 发 


行 也 都 如 此 。 与 其 他 我 们 提 及 的 变种 相 比 ， 这 些 发 行 并 没有 指出 对 服 
务 器 源码 做 了 哪些 修改 ， 因 为 它们 保留 了 MySQL 的 名 字 。 


过 去 我 们 遇 到 过 许多 关于 MySQL 修 改版 的 问题 。 这 是 我 们 倾向 于 
倡导 使 用 Oracle 版 本 的 MySQL 的 一 个 原因 ， 除 非 有 很 强 有 力 的 理由 来 
使 用 其 他 版 本 。 


BS 


MySQL 分 支 和 变种 很 少 有 大 量 的 代码 被 采用 到 MySQL 代 码 的 主 
干 树 上 ， 但 却 很 大 程度 上 影响 了 MySQL 开 发 的 方向 和 节奏 。 在 某 些 情 
况 下 ， 它 们 提供 了 一 个 出 众 的 替代 选择 。 


应 该 使 用 分 支 代替 Oracle 官 方 的 MySQL? 我 们 并 不 认为 这 通常 有 
必要 。 如 何 选择 一 般 基 于 理解 (从 来 没有 完全 的 精确 ) 或 商业 原因 ， 
例如 与 Oracle 有 一 个 企业 范围 的 关系 。 通 常 有 两 类 人 倾向 不 使 用 官方 
版 本 的 服务 器 。 


。 遇 到 只 有 改 源码 才能 解决 的 特别 问题 的 人 。 
。 不 信任 Oracle 对 MySQL 的 管理 并 且 视 分 支 为 真正 的 开 产 进而 快乐 
的 人 。 


为 什么 选择 某 个 分 支 ? 我 们 总 结 如 下 。 如 果 你 想 与 官方 MySQL 版 
本 尽量 保持 紧密 ， 并 且 想 获取 更 好 的 性 能 、 指 导 和 有 用 的 特性 ， 那 就 
选择 Percona Server。 如 果 你 觉得 MariaDB 对 服务 器 的 大 量 修改 更 优 ， 
或 想 要 一 个 在 社区 内 更 广泛 发 行 的 存储 引擎 ， 就 选择 MariaDB。 如 果 
你 想 要 一 个 轻 量 精简 版 的 数据 库 服务 器 并 且 并 不 介意 是 否 与 MySQL 兼 
容 ， 或 想 让 自己 对 数据 库 的 改进 更 容易 ， 那 就 追随 Drizzle。 


讲 到 Percona， 一般 认 为 所 有 的 提供 商都 有 许多 关于 官方 版 本 
MySQL 的 经 验 ， 然 而 很 自然 地 Percona 对 于 Percona Server 最 有 经 验 ， 
而 Monty 公 司 最 熟悉 MariaDB。 当 寻求 官方 发 行 的 MySQL 的 Bug 修 复 时 
这 会 有 影响 。 只 有 Oracle 能 保证 一 个 Bug 在 官方 的 MySQL 发 行 中 被 修 
复 ; 其 他 供应 商 可 以 提供 修复 但 没有 把 它们 加 入 到 官方 发 行 中 的 权 
力 。 这 回答 了 为 什么 选择 某 个 分 支 : 有 些 人 选择 分 支 就 是 因为 其 服务 
供应 商 提供 的 MySQL 版 本 完全 可 控 ， 并 且 可 以 方便 地 修复 和 改进 。 


(1) 曾 有 一 些 对 文件 格式 的 改变 ， 但 已 经 默认 被 禁 掉 ， 如 果 想 要 ， 还 可 以 使 其 生效 。 


(2) 这 名 话 见 于 http:/askmonty.org/blog/the-2-year-old-mariadb 和 
http://kb.askmonty.org/en/what-is-mariadb-53. 


附录 B MySQL 服务 器 状态 


你 可 以 通过 查看 MySQL 的 状态 来 回答 诗 多 关于 MySQL 的 问题 。 
MySQL 以 多 种 方式 来 暴露 服务 器 内 部 信息 。 最 新 的 是 MySQL 5.5 中 的 
PERFORMANCE_SCHEMA 库 ， 而 标准 的 INFORMATION_SCHEMA 
库 从 MySQL 5.0 就 已 开始 存在 ， 此 外 实际 上 一 直 存 在 一 系列 的 SHOW 
命令 。 有 有些 通过 SHOW 命令 获取 的 信息 并 不 在 
INFORMATION_SCHEMA 中 存在 。 


对 你 的 挑战 是 ， 问 题 到 底 是 什么 ， 如 何 获 取 需 要 的 信息 ， 如 何 解 
释 它 。 尽 管 MySQL 人 允许 你 查看 许多 服务 器 内 部 发 生 的 信息 ， 但 使 用 这 
些 信 息 并 不 总 是 简单 的 。 理 解 它 需 要 耐心 、 经 验 ， 并 要 准备 好 参阅 
MySQL 用 户 手册 。 同 样 ， 好 的 工具 也 非常 有 用 。 


这 个 附录 大 部 分 是 参考 材料 ， 但 也 有 许多 关于 服务 器 内 部 功能 的 
信号; 特别 是 在 关于 InnoDB 的 小 节 中 。 


系统 变量 


MySQL 通 过 SHOW VARIABLES SQL 命令 
你 可 以 在 表达 式 中 使 用 这 些 变 量 ， 或 在 命 行 中 通过 ace 
variables 试验 >o EY MySQL 5.1 it , a 以 通过 访问 
INFORMATION_SCHEMA 库 中 的 表 来 获取 这 些 信息 。 


这 些 变量 反映 了 一 系列 配置 信息 ， 例 如 服务 器 的 默认 存储 引擎 
(storage_engine) 、 可 用 的 时 区 、 连 接 的 排序 规则 (collation) WE 
动 参数 。 我 们 在 第 8 章 中 已 经 讨论 过 如 何 设置 和 使 用 它们 。 


SHOW STATUS 


SHOW STATUS 命令 会 显示 每 个 服务 器 变量 的 名 字 和 值 。 和 上 面 
讲 的 服务 器 参数 不 一 样 ， 状 态 变量 是 只 读 的 。 可 以 在 MySQL 客 户 端 里 
运行 SHOW STATUS 或 在 命令 行 里 运行 mysqladmin extended-status 来 查 
看 这 些 变 量 。 如 果 使 用 SQL 命令 ， 可 以 使 用 LIKE 或 WHERE 来 限制 结 
果 。 可 以 用 LIKE 对 变量 名 做 标准 模式 匹配 。 命 令 将 返回 一 个 结果 表 ， 
但 不 能 对 它 排序 ， 与 另外 一 个 表 做 联合 操作 ， 或 像 对 MySQL 表 一 样 做 
一 些 事 情 。 在 MySQL 5.1 或 更 新 版 本 中 ， 可 以 直接 从 
INFORMATION_SCHEMA.GLOBAL_STATUS 和 
INFORMATION_SCHEMA.SESSION_STATUS 表 中 查询 值 。 


pp ANEA 用 “状态 变量 * 这 个 术语 来 指 从 SHOW STATUS 中 得 到 的 值 ， 术 语 “系统 变量 ” 


则 指 服务 器 配置 变 量 。 


SHOW STATUS 的 行为 自 MySQL 5.0 后 有 了 非常 大 的 改变 ， 但 是 
如 果 你 没有 足够 细致 地 观察 ， 可 能 不 会 注意 到 。5.0 之 前 的 版 本 只 有 全 
局 变量 ，5.1 及 以 后 的 版 本 中 ， 有 的 变量 是 全 局 的 ， 有 的 变量 是 连接 级 
别 的 。 因 此 ，SHOW STATUS 混杂 了 全 局 和 会 话 变 量 。 其 中 许多 变量 
有 双重 域 : 既是 全 局 变量 ， 也 是 会 话 变量 ， 它 们 拥有 相同 的 名 字 。 现 
在 SHOW STATUS 默认 也 显示 会 话 变量 ， 因 此 ， 如 果 你 习惯 于 使 用 
SHOW STATUS 来 查看 全 局 变量 ， 则 需要 改 为 运行 SHOW GLOBAL 
STATUS 查看 。 届 


有 上 百 个 状态 变量 。 大 部 分 要 么 是 计数 器 ， 要 么 包含 某 些 状态 指 
标的 当前 值 。 每 次 MySQL 做 一 些 事情 都 会 导致 计数 器 的 增长 ， 比 如 开 
台 初 始 化 一 个 全 表 扫 描 (Select_scan) 。 度量 值 ， 例 如 打开 的 到 服务 


器 连接 数量 (Threads_connected) ， 可 能 增长 和 减少 。 有 时 候 几 个 变 
量 貌 似 指 向 相同 的 事情 ， 例 如 Connections (尝试 连接 到 服务 器 的 连接 
数量 ) 和 Threads_connected; 在 本 例 下 ， 变 量 是 关联 的 ， 但 类 似 的 名 
字 并 不 总 是 隐 含 某 种 关系 。 


变量 采用 无 符号 整 型 存储 。 它 们 在 32 位 编译 系统 上 用 4 个 字 节 
(byte) ， 而 在 64 位 环境 上 用 8 个 字 节 ， 并 且 当 达到 最 大 值 后 会 重新 从 
0 开始 。 如 果 你 增 量 地 监测 这 些 变 量 ， 可 能 需要 观察 并 修正 这 个 绕 回 处 
理 ; 你 也 要 意识 到 如 果 服 务 器 已 经 运行 很 长 一 段 时 间 ， 可 能 会 有 比 预 
期 更 小 的 值 ， 这 是 因为 这 些 变 量 值 已 经 被 重 置 为 零 。 (在 64 位 编译 系 
统 上 基本 不 会 出 现 。) 


如 果 想 对 服务 器 的 工作 负载 有 一 个 大 体 上 的 了 解 ， 可 以 将 相关 的 
一 组 变量 放 在 一 起 查看 和 对 比 一 一 例如 ， 一 起 查看 所 有 的 Select_* 变 
量 ， 或 所 有 的 Handler * 变量 。 如 果 使 用 innotop， 在 Command 
Summary 模 式 下 查看 更 简单 ， 但 也 可 以 通过 类 似 mysqladmin 不 会 使 用 
SHOW GLOBAL STATUS， 因 此 仍 将 不 能 显示 “正确 的 ”信息 。 


extended -r -i60 | grep Handler_ 的 命令 手动 完成 。 以 下 是 在 一 个 我 
们 检测 的 服务 器 上 innotop 对 Select_* 变 量 的 显示 。 


Command Summary 


Name Value Pet Last Incr Pet 
Select_scan 756582 59.89% 2 
100.00% 
Select_range 497675 39.40% 0 


0.00% 


Select_full_join 7847 0.62% 0 


0.00% 

Select_full_range_join 1159 0.09% 0 
0.00% 

Select_range_check 1 0.00% 0 
0.00% 


查看 一 组 变量 的 当前 值 、 上 一 次 查询 的 值 ， 以 及 它们 之 间 的 差 
值 ， 可 以 使 用 Percona Toolkit 中 的 pt-mext 工 具 ， 或 Sshlomi Noach 写 的 简 
洁 的 查询 。(2 


SELECT STRAIGHT_ JOIN 
LOWER(gs0.VARIABLE_NAME) AS variable_name, 
gs0.VARIABLE_VALUE AS value 0, 
gs1.VARIABLE_VALUE AS value 1, 
(gs1.VARIABLE_VALUE - gs®.VARIABLE_VALUE) AS diff, 
(gs1.VARIABLE_VALUE - gs@.VARIABLE_ VALUE) / 10 AS 
per_sec, 
(gs1.VARIABLE_VALUE - gs0.VARIABLE_VALUE) * 60 / 10 AS 
per_min 
FROM ( 
SELECT VARIABLE_NAME, VARIABLE_VALUE 
FROM INFORMATION_SCHEMA.GLOBAL_STATUS 
UNION ALL 
SELECT '', SLEEP(10) FROM DUAL 
) AS gs0 


JOIN INFORMATION_SCHEMA.GLOBAL_STATUS gs1 USING 
(VARIABLE_NAME) 
WHERE gs1.VARIABLE VALUE <> gs0.VARIABLE_VALUE; 


+----------------------- +--------- +---------+------ +--------- +--------- 十 
| variable name | value 0 | value 1 | diff | per sec | per min | 
+-----------------------+--------- +--------- +------ +--------- +--------- 十 
| handler read rnd next | 2366 | 2953 | 587 | 58.7 | 3522 | 
| handler | write | 2340 | 3218 | 878 | 87.8 | 5268 | 
| open files | 22 | 20 | -2| -0.2 | -12 | 
| select full join | 2 | 3 | 下 0.1 | 6 | 
| select scan | 7 | 9 | 2 | 0.2 | 12 | 
+------- ER +--------- +--------- +------ +--------- +--------- 十 


最 有 帮助 的 是 查看 整个 过 程 最 后 几 分 钟 所 有 这 些 变量 值 和 度量 
值 ， ee 


接 下 来 是 对 SHOW STATUS 中 所 看 到 的 各 种 变量 的 概述 ， 但 不 是 
一 个 详尽 的 列表 。 对 于 给 定 变 量 的 详情 ， 最 好 查询 MySQL 用 户 手 册 ， 
详 见 http://dev.mysql. OU html。 当 我 们 讨论 
一 组 以 相同 前 缀 开头 的 相关 变量 时 ， 我 们 指 的 是 “< 前 弘 >_*” 这 样 的 变 


o 


线程 和 连接 统计 


ra 


这 些 变量 用 来 跟踪 尝试 的 连接 、 退 出 的 连接 、 网 络 流量 和 线程 统 
aC 
e Connections, Max_used_connections, Threads_connected 
e Aborted_clients, Aborted_connects 
e Bytes_received, Bytes_sent 
e Slow_launch_threads, Threads_cached, Threads_created, 


Threads_running 


如 果 Aborted_connects 不 为 0， 可 能 意味 着 网 络 有 问题 或 某 人 尝试 
连接 但 失败 (可 能 用 户 指定 了 错误 的 密码 或 无 效 的 数据 库 ， 或 某 个 监 
控 系 统 正在 打开 TCP 的 3306 端 口 来 检测 服务 器 是 否 活着 ) 。 如 果 这 个 
值 太 高 ， 可 能 有 严重 的 副作用 : 导致 MySQL 阻 塞 一 个 主机 。 


Aborted_clients 有 类 似 的 名 字 但 意思 完全 不 同 。 如 果 这 个 值 增长 ， 
一 般 意 味 着 曾经 有 一 个 应 用 错误 ， 例 如 程序 在 结束 之 前 志 记 正确 地 关 
闭 MySQL 连 接 。 这 一 般 并 不 表明 有 大 问题 。 


二 进 制 日 志 状 态 


Binlog_cache_use 和 Binlog_cache_disk_use 状 态 变量 显示 了 在 二 进 
制 日 志 缓 存 中 有 多 少 事 务 被 存储 过 ， 以 及 多 少 事务 因 超 过 二 进 制 日 志 
缓存 而 必须 存储 到 一 个 临时 文件 中 。 MySQL 5.5 还 包含 
Binlog_stmt_cache_use 和 Binlog_stmt_cache_disk_use， 显 示 了 非 事 务 语 
句 相应 的 度量 值 。 所 谓 的 “二 进 制 日 志 缓 存 命中 率 ” 往 往 对 配置 二 进 制 
日 志 缓存 的 大 小 并 没有 参考 意义 。 详 细 参 考 第 8 章 中 相关 的 话题 。 


命令 计数 器 


Com_* 变 量 统计 了 每 种 类 型 的 SQL 或 C API 命 令 发 起 过 的 次 数 。 例 
如 ，Com_select 统 计 了 SELECT 语句 的 数量 ，Com_change_db 统 计 一 个 
连接 的 默认 数据 库 被 通过 USE 语 句 或 C API 调 用 更 改 的 次 数 。 
Questions( 变 量 统 计 总 查询 量 和 服务 器 收 到 的 命令 数 。 然 而 ， 它 并 不 
完全 等 于 所 有 Com_* 变 量 的 总 和 ， 这 与 查询 缓存 命中 、 关 闭 和 退出 的 
连接 ， 以 及 其 他 可 能 的 因素 有 关 。 


Com_admin_commands 状 态 变量 可 能 非常 大 。 它 不 仅 计 数 管理 命 
令 ， 并 且 还 包括 对 MySQL 实 例 的 Ping 请 求 。 这 些 请 求 通过 C APIR 
起 ， 并 且 一 般 来 自 客 户 端 代码 ， 例 如 下 面 的 Perl 代 码 。 


my $dbh = DBI->connect(...); 
while ( $dbh && $dbh->ping ) { 
# Do something 


} 


这 些 Ping 请 求 是 “垃圾 ”查询 。 它 们 往往 不 会 对 服务 器 产生 许多 负 
载 ， 但 仍然 是 个 浪费 ， 因 为 网 络 回路 时 间 会 增加 应 用 的 响应 时 间 。 我 
们 曾经 看 到 ORM 系 统 (Ruby on Rails 立 即 跃 入 脑海 ) 在 每 次 查询 之 前 
Ping 服 务 器 ， 而 这 是 无 意义 的 ;Ping 服 务 器 然后 再 查询 是 一 个 “跳跃 之 
前 看 一 下 ”设计 模式 的 典型 例子 ， 它 会 产生 竞争 条 件 。 我 们 同样 看 到 过 
在 每 次 查询 之 前 更 改 默 认 库 的 数据 库 抽象 水 数 库 ， 这 也 会 产生 大 量 的 
Com_change_db 命 令 。 最 好 消除 这 两 种 做 法 。 


临时 文件 和 表 


可 以 通过 下 列 命令 查看 MySQL 创 建 临 时 表 和 文件 的 计数 。 


mysql> SHOW GLOBAL STATUS LIKE 'Created_tmp%'; 


这 显示 了 关于 隐 式 临时 表 和 文件 的 统计 一 一 执行 查询 时 内 部 创 
建 。 在 Percona Server 中 ， 同 样 有 展示 显 式 临 时 表 〈 即 由 用 户 通过 


CREATE TEMPORARY TABLE 所 创建 ) 的 命令 。 


mysql> SHOW GLOBAL TEMPORARY TABLES; 


RIF 


句柄 API 是 MySQL 和 存储 引擎 之 间 的 接口 。Handler_* 变 量 用 于 统 
计 句 柄 操作 ， 例 如 MySQL 请 求 一 个 存储 引擎 来 从 一 个 索引 中 读 取 下 一 
行 的 次 数 。 可 以 通过 下 列 命令 查看 这 些 变量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Handler_%'; 


MyISAM 键 缓冲 


Key_* 变 量 包含 度量 值 和 关于 MyISAM 键 缓冲 的 计数 。 可 以 通过 


= 
下 列 命令 查看 这 些 变量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Key_%'; 


文件 描述 符 


如 果 你 主要 使 用 MyISAM 存 储 引 擎 ， 那 么 Open * 变 量 揭示 了 
MySQL 每 隔 多 久 会 打开 每 个 表 的 .frm、.MYI 和 .MYD 文 件 。InnoDB 保 持 


所 有 的 数据 在 表 空间 文件 中 ， 因 此 如 果 你 主要 使 用 ImnoDB， 那 么 这 些 
变量 并 不 精确 。 可 以 通过 下 列 命 令 查 看 Open_* 变 量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Open_%'; 


查询 缓存 


过 查询 Qcache_* 状 态 变量 可 以 检查 查询 缓存 。 
mysql> SHOW GLOBAL STATUS LIKE 'Qcache_%'; 


SELECT 类 型 


Select_* 变 量 是 特定 类 型 的 SELECT 查询 的 计数 器 。 它 们 能 帮助 你 
了 解 使 用 各 种 查询 计划 的 SELECT 查询 比率 。 不 幸 的 是 ， 并 没有 关于 
其 他 查询 类 型 的 状态 变量 ， 例 如 UPDATE 和 REPLACE; 然而 ， 可 以 看 
一 下 Handler * 状 态 变量 (前 面 讨论 过 ) 大 致 了 解 非 SELECT 查询 的 相 
对 数量 。 要 查看 所 有 Select _* 变 量 ， 使 用 下 列 命 令 。 


mysql> SHOW GLOBAL STATUS LIKE 'Select_%'; 


以 我 们 的 判断 ，Select_* 状 态 变 量 可 以 按 花费 递增 的 顺序 如 下 排 
列 。 


Select_range 
在 第 一 个 表 上 扫描 一 个 索引 区 间 的 联接 数目 。 
Select_scan 


扫描 整个 第 一 张 表 的 联接 数目 。 如 果 第 一 个 表 中 每 行 都 参与 
联接 ， 这 样 计数 并 没有 问题 如 果 你 并 不 想 要 所 有 行 但 又 疫 有 过 
引 以 查找 到 所 需要 的 行 ， 那 瓯 糟糕 了 。 


Select_full_range_join 


使 用 在 表 n 中 的 一 个 值 来 从 表 n+1 中 通过 参考 索引 的 区 间 内 获 
取 行 所 做 的 联接 数 。 这 个 值 或 多 或 少 比 Select_scan 开 销 多 些 ， 具 
体 多 少 取决 于 查询 。 


Select_range_check 


在 表 n+1 中 重新 评估 表 n 中 的 每 一 行 的 索引 是 否 开销 最 小 所 做 
的 联接 数 。 这 一 般 意 味 着 在 表 n+1 中 对 该 联接 而 言 并 没有 有 用 的 
索引 。 这 个 查询 有 非常 高 的 额外 开销 。 


Select_full_join 


交叉 联接 或 并 没有 条 件 匹配 表 中 行 的 联接 的 数目 。 检 测 的 行 
数 是 每 个 表 中 行 数 的 乘积 。 这 通常 是 个 坏事 情 。 


最 后 两 个 变量 一 般 并 不 快速 地 增长 ， 如 果 快 速 增长 ， 则 可 能 表明 
一 个 “糟糕 ”的 查询 引入 到 了 系统 中 。 具 体 可 参考 第 3 章 中 关于 如 何 找到 
此 类 查询 的 讨论 。 


排序 


在 前 面 几 章 中 我 们 已 经 讲 了 许多 MySQL 的 排序 优化 ， 因 此 你 应 该 
知道 排序 是 如 何 工作 的 。 当 MySQL 不 能 使 用 一 个 索引 来 获取 预先 排序 
的 行 时 ， ”必须 使 用 文件 排序 ， 这 会 增加 Sort * 状 态 变 量 。 除 
Sort_merge_passes 外 ， 你 可 以 只 是 增加 MySQL 会 用 来 排序 的 索引 以 改 
变 这 些 值 。Sort_ merge_passes 依 赖 sort_buffer size 服务 器 变量 (ABS 
myisam_sort_buffer_size 服 务 器 变量 相 混 淆 ) 。MySQL 使 用 排序 缓冲 来 
容纳 排序 的 行 块 。 当 完成 排序 后 ， 它 将 这 些 排序 后 的 行 合 并 到 结果 集 
中 ， 增 加 Sort_merge_passes， 并 且 用 下 一 个 待 排序 的 行 块 填充 缓存 。 
然而 ， 使 用 这 个 变量 来 指导 排序 缓存 的 大 小 并 不 是 个 好 方法 ， 详 情 见 


第 3 章 。 


可 以 通过 以 下 命令 查看 所 有 的 Sort_* 变 量 。 


mysql> SHOW GLOBAL STATUS LIKE 'Sort_%'; 


当 MySQL 从 文件 排序 结果 中 读 取 已 经 排 好 序 的 行 并 返回 给 客户 端 
时 ，Sort_scan 和 Sort_range 变 量 会 增长 。 不 同 点 仅 在 于 : 前 者 是 当 查 询 
计划 导致 Select_scan 增 加 (参考 前 面 的 章节 ) 时 增加 ， 而 后 者 是 当 
Select_range 增 加 时 增加 。 二 者 的 实现 和 开销 完全 一 样 ; 仅仅 指示 了 导 
致 排序 的 查询 计划 类 型 。 


RM 


Table locks_immediate 和 Table locks_waited 变 量 可 告诉 你 有 多 少 锁 
被 立即 授权 ， 有 多 少 锁 需要 等 待 。 但 请 注意 ， 它 们 只 是 展示 了 服务 器 
级 别 锁 的 统计 ， 并 不 是 存储 引擎 级 的 锁 统 计 。 


InnoDB 相 关 


Innodb * 变 量 展示 了 SHOW ENGINE INNODB STATUS 中 包含 的 
一 些 数据 ， 本 附录 稍 后 会 讨论 。 这 些 变量 会 按 名 字 分 组 : 
Innodb_buffer_pool_*, Innodb log * ， 等 等 。 稍 后 我 们 在 检查 完 
SHOW ENGINE INNODB STATUS 后 会 更 多 地 讨论 InnoDB 内 幕 。 


这 些 变 量 存 在 于 MySQL 5.0 或 更 新 版 本 中 ， 它 们 有 重要 的 副 作 
用 : 它们 会 创建 一 个 全 局 锁 ， 然 后 在 释放 该 锁 之 前 遍历 i 
冲 池 。 同 时 ， 另 外 一 些 线程 也 会 遇 到 该 锁 而 阻塞 ， 直 到 它 被 释放 。 这 
和 三 曲 了 一 些 状 态 值 ， 比 如 Threads_running， 因 此 ， 
更 高 (可 能 高 许多 ， 取 决 于 系统 此 时 有 多 忙 ) 。 当 运行 SHOW 
ENGINE INNODB STATUS 或 通过 INFORMATION_SCHEMA 表 (在 
MySQL 5.0 或 更 新 版 本 中 ，SHOW STATUS 和 SHOW VARIABLES 与 对 
INFORMATION_SCHEMA 表 的 查询 在 幕后 映射 了 起 来 ) 访问 这 些 统 
计时 ， 有 相同 的 副作用 。 


因此 ， 这 些 操作 在 这 些 版 本 的 MySQL 中 会 更 加 昂贵 一 一 检查 服务 
器 状态 太 频 繁 〈 例 如 ， 每 秒 一 次 ) 可 能 会 显著 增加 负载 。 使 用 SHOW 
STATUS LIKE 也 无 济 于 事 ， 因 为 它 要 获取 所 有 的 状态 然后 再 进 


滤 。 


MySQL 5.5 中 相 比 5.1 有 更 多 的 变量 ， 在 Percona Server 中 更 多 。 


插件 相关 


MySQL 5.1 和 更 新 的 版 本 中 支持 可 揪 拔 的 存储 引擎 ， 并 在 服务 器 
内 对 存储 引擎 提供 了 注册 它们 自己 的 状态 和 配置 变量 的 机 制 。 如 果 你 
在 使 用 一 个 可 插 拔 的 存储 引擎 ， 也 许 会 看 到 许多 插件 特有 的 变量 。 类 
似 的 变量 总 是 以 插件 名 开头 。 


SHOW ENGINE INNODB STATUS 


InnoDB 存 储 引 擎 在 SHOW ENGINE INNODB STATUS 输出 中 ， 老 
版 本 中 对 应 的 是 SHOW INNODB STATUS ， 显 示 出 了 大 量 的 内 部 信 
息 。 


不 像 其 他 大 部 分 SHOW 命 令 ， 它 的 输出 就 是 单独 的 一 个 字符 串 ， 
没有 行 和 列 。 它 分 为 很 多 小 段 ， 每 一 段 对 应 了 InnoDB 存 储 引 擎 不 同 部 
分 的 信息 ， 其 中 有 一 些 信息 对 于 InnoDB 开发 者 来 说 是 非常 有 用 的 ， 但 
是 ， 许 多 信息 ， 如 果 你 试 着 去 理解 ， 并 且 应 用 到 高 性 能 InnoDB 调 优 的 
时 候 ， 你 会 发 现 它 们 非常 有 趣 一 一 甚至 是 非常 必要 的 。 


改过 版 本 的 ImmoDB 经 党 把 64 位 数字 分 成 两 部 分 来 输出 : 高 32 位 和 低 32 位 。 有 一 个 
例子 是 事务 ID， 比如 TRANSACTION 0 3793469， 你 可 以 这 么 来 计算 64 位 数字 的 值 : 把 第 一 


部 分 往 左 移动 32 位 ， 然 后 加 到 第 二 部 分 上 。 我 们 在 后 面 会 展示 几 个 例子 


输出 内 容 包 含 了 一 些 平 均值 的 统计 信息 ， 例 如 fsyncO 每 秒 调 用 次 
数 。 这 些 平均 值 是 自 上 次 输出 结果 生成 以 来 的 统计 数 ， 因 此 ， 如 果 你 
正在 检查 这 些 值 ， 那 就 要 确保 已 经 等 待 了 30s 左 右 的 时 间 ， 使 两 次 采样 


之 间 积 累 起 足够 长 的 统计 时 间 并 多 次 采样 ， 检 查 计数 器 变化 从 而 弄 清 
其 行为 。 并 不 是 所 有 的 输出 都 会 在 一 个 时 间 点 上 生成 ， 因 而 也 不 是 所 
有 显示 出 来 的 平均 值 会 在 同一 时 间 间 隔 里 重新 计算 一 遍 。 而 且 ， 
InnoDB 有 一 个 内 部 复位 间隔 ， 而 它 是 不 可 预知 的 ， 各 个 版 本 也 不 一 
样 。 你 应 该 检查 一 下 输出 ， 看 看 有 哪些 平均 值 在 这 个 时 间 段 里 生成 ， 
因为 每 次 采样 的 时 间 间 隔 不 总 是 相同 的 。 


这 里 面 有 足够 的 信息 可 供 手工 计算 出 大 多 数 你 想 要 的 统计 信息 。 
但 是 ， 如 果 这 时 有 一 款 监控 工具 ， 例 如 innotop 一 一 它 能 为 你 计算 出 增 
量 差 值 和 平均 值 ， 那 将 是 非 澡 有 用 的 。 


头 部 信息 


第 一 段 是 头 部 信息 ， 它 仅仅 声明 了 输出 开始 ， 其 内 容 包括 当前 的 
日 期 和 时 间 ， 以 及 自 上 次 输出 以 来 经 过 的 时 长 。 下 列 第 2 行 是 当前 日 期 
和 时 间 。 第 4 行 显示 的 是 计算 出 这 一 平均 值 的 时 间 间 隔 ， 即 自 上 次 输出 
以 来 的 时 间 ， 或 者 是 距离 上 次 内 部 复位 的 时 长 。 


4 Per second averages calculated from the last 49 seconds 


SEMAPHORES 


如 果 有 高 并 发 的 工作 负载 ， 你 就 要 关注 下 接 下 来 的 段 : 
SEMAPHORES (a5) 。 它 包含 了 两 种 数据 : 事件 计数 器 ， 以 及 
可 选 的 当前 等 待 线程 的 列表 。 如 果 有 性 能 上 的 瓶颈 ， 可 以 使 用 这 些 信 
息 来 找 出 瓶颈 。 不 乎 的 是 ， 想 知道 怎么 使 用 这 些 信 息 还 是 有 一 点 复 
杂 ， 不 过 我 们 会 在 本 附录 的 后 面部 分 里 给 你 一 些 建议 。 下 面 是 一 些 输 
出 样 例 。 


4 OS WAIT ARRAY INFO: reservation count 13569, signal count 
11421 
5 --Thread 1152170336 has waited at ./../include/bufObuf.ic 
line 630 for 0.00 seconds 
the semaphore: 
6 Mutex at 0x2a957858b8 created file bufObuf.c line 517, 
lock var 0 
7 waiters flag 0 
8 wait is ending 
9 --Thread 1147709792 has waited at ./../include/bufObuf.ic 
line 630 for 0.00 seconds 
the semaphore: 
10 Mutex at 0x2a957858b8 created file bufObuf.c line 517, 
lock var 0 
11 waiters flag 0 


12 wait is ending 


13 Mutex spin waits 5672442, rounds 3899888, OS waits 4719 
14 RW-shared spins 5920, OS waits 2918; RW-excl spins 3463, 


OS waits 3163 


第 4 行 给 出 了 关于 操作 系统 等 待 数 组 的 信息 ， 它 是 一 个 “ 插 模 > 数 
组 。InnoDB 在 数组 里 为 信号 量 保留 了 一 些 插 槽 ， 操 作 系统 用 这 些 信 号 
量 给 线程 发 送信 号 ， 使 线程 可 以 继续 运行 ， 以 完成 它们 等 着 做 的 事 
情 。 这 一 行 还 显示 出 InnoDB 使 用 了 多 少 次 操作 系统 的 等 待 。 保 留 计数 

(reservation count) 显示 了 InnoDB 分 配 插 槽 的 频 度 ， 而 信号 计数 
(signal count) 衡量 的 是 线程 通过 数组 得 到 信号 的 频 度 。 操 作 系 统 的 
等 待 相对 于 空转 等 待 (spin wait) 要 更 昂贵 一 些 ， 我 们 即将 看 到 这 一 
点 


JIWNO 


第 5 一 12 行 显示 的 是 当前 正在 等 待 互 斥 量 的 mnoDB 线 程 。 在 这 个 
例子 里 显示 出 有 两 个 线程 正在 等 待 ， 每 一 个 都 是 以 “-- Thread < 数字 > 
has waited...” 开 始 的 。 这 一 段 应 该 是 空 的 ， 除 非 服务 器 运行 着 高 并 发 的 
工作 负载 ， 促 使 mnoDB 采 取 让 操作 系统 等 待 的 措施 。 除 非 你 对 InnoDB 
源 代码 很 熟悉 ， 否 则 这 里 看 到 的 最 有 用 的 信息 是 发 生 线 程 等 待 的 代码 
文件 名 。 这 就 给 了 你 一 个 提示 : 在 InnoDB 内 部 哪里 才 是 热点 。 举 例 来 
说 ， 如 果 看 到 许多 线程 都 在 一 个 名 为 bufpbufic 的 文件 上 等 待 着 ， 那 就 
意味 着 你 的 系统 里 存在 着 缓冲 池 竞 争 。 这 个 输出 信息 还 显示 了 这 些 线 
程 等 待 了 多 长 的 时 间 ， 其 中 “waiters flag” 显 示 了 有 多 少 个 等 待 者 正在 
等 待 同一 个 互 斥 量 。 


文本 “wait is ending” 意 味 着 这 个 互 斥 量 实际 上 已 经 被 释放 了 ， 但 操 
作 系 统 还 没 把 线程 调度 过 来 运行 。 


你 可 能 想 知 道 mmnoDB 真 正 等 待 的 是 什么 。ImnoDB 使 用 了 互 斥 量 和 
言 号 量 来 保护 代码 的 临界 区 ， 例 如 ， 限 定 每 次 只 能 有 一 个 线程 进入 临 
界 区 ， 或 者 是 当 有 活动 的 读 时 ， 就 限制 写 入 等 。 在 InnoDB 代 码 里 有 很 
多 临界 区 ， 在 合适 的 条 件 下 ， 它 们 都 可 能 出 现在 那里 。 常 常 能 见 到 的 
一 种 情形 就 是 获取 缓冲 池 分 页 的 访问 权 。 


在 等 待 线程 的 列表 之 后 ， 第 13 和 14 行 显示 了 更 多 的 事件 计数 器 。 
第 13 行 显示 的 是 跟 互 斥 量 相关 的 几 个 计数 器 ， 第 14 行 用 于 显示 读 / 写 共 
享 和 排他 锁 的 计数 器 。 在 每 一 个 情形 中 ， 都 能 看 到 InnoDB 依 靠 操作 系 
统 等 待 的 频 度 。 


InnoDB 有 着 一 个 多 阶段 等 竺 策略。 首先， 它 会 试 着 对 锁 进 行 空 
待 。 如 果 经 过 了 一 个 预 设 的 空转 等 待 周期 (设置 
innodb_sync_spin_loops 配 置 变 量 指令 ) 之 后 还 没有 成 功 ， 那 就 会 退 到 
更 昂贵 更 复杂 的 等 待 数组 中 。 负 


空转 等 待 的 成 本 相对 比较 低 ， 但 是 它们 要 不 停 地 检查 一 个 资源 是 
否 能 被 锁定 ， 这 种 方式 会 消耗 CPU 周期 。 但 是 ， 这 没有 听 起 来 那么 粳 
糕 ， 因 为 当 处 理 器 在 等 待 TO 时 ， 一 般 都 有 一 些 空 册 的 CPU 周期 可 用 ， 
即使 是 没有 空 朵 的 CPU 周期 ， 空 等 也 要 比 其 他 方式 更 加 廉价 一 些 。 然 
而 ， 当 另外 一 条 线程 能 做 一 些 事情 时 ， 空 转 等 待 也 还 会 独占 处 理 器 。 


空转 等 待 的 替换 方案 就 是 让 操作 系统 做 上 下 文 切换 ， 这 样 ， 当 这 
个 线程 在 等 待 时 ， 另 外 一 个 线程 就 可 以 被 运行 ， 然 后 ， 通 过 等 待 数组 
里 的 信号 量 发 出 信号 ， 唤 醒 那 个 沉睡 的 线程 。 通 过 信号 量 来 发 送信 号 
是 比较 有 效率 的 ， 但 是 上 下 文 切 换 就 很 昂贵 ， 这 很 快 就 会 积 少 成 多 : 
每 秒 钟 几 千 次 的 切换 会 引发 大 量 的 系统 开销 。 


你 可 以 通过 改变 系统 变量 innodb_sync_spin_loops 的 值 ， 试 着 在 空 
转 等 待 与 操作 系统 等 待 之 间 达 成 平衡 。 不 要 担心 空转 等 待 ， 除 非 你 在 
每 一 秒 里 会 看 到 许多 空转 等 待 〈 大 概 是 几 十 万 这 个 水 平 ) 。 这 经 常 需 
要 理解 源 代码 或 咨询 专家 才能 解决 。 同 样 也 可 以 考虑 使 用 Performance 
Schema， 或 看 一 下 SHOW ENGINE INNODB MUTEX. 


LATEST FOREIGN KEY ERROR 


下 一 段 ， 即 LATEST FOREIGN KEY ERROR， 一 般 不 会 出 现 ， 除 
非 你 的 服务 器 上 有 外 键 错 误 。 在 源 代 码 里 有 许多 地 方 会 生成 这 样 的 输 
出 ， 具 体 取 决 于 错误 的 类 型 。 有 时 问题 在 于 事务 在 插入 、 更 新 或 删除 
一 条 记录 时 要 寻找 到 父 行 或 子 行 。 还 有 些 时 候 是 当 InnoDB 尝 试 增加 或 
删除 一 个 外 键 ， 或 修改 一 个 已 经 存在 的 外 键 时 ， 发 现 表 之 间 类 型 不 匹 
Ac. 


这 部 分 输出 对 于 调试 与 InnoDB 往 往 不 明确 的 外 键 错误 相对 应 的 准 
确 原因 非常 有 帮助 。 让 我 们 看 几 个 例子 。 首 先 ， 创建 有 外 殷 关 系 的 两 
个 表 ， 然 后 插入 少量 数据 。 


CREATE TABLE parent ( 
parent_id int NOT NULL, 
PRIMARY KEY(parent_id) 

) ENGINE=InnoDB; 

CREATE TABLE child ( 
parent_id int NOT NULL, 


KEY parent_id (parent_id), 


CONSTRAINT child ibfk 1 FOREIGN KEY (parent_id) 
REFERENCES parent (parent_id) 
) ENGINE=InnoDB; 
INSERT INTO parent(parent_id) VALUES(1); 


INSERT INTO child(parent_id) VALUES(1); 


有 两 种 基本 的 外 键 错误 。 以 某 种 可 能 违反 外 键 约束 关系 的 方法 增 
加 、 更 新 或 删除 数据 ， 将 导致 第 一 类 错误 。 例 如 ， 以 下 是 当 我 们 从 父 
表 中 删除 行 时 发 生 的 事情 。 


DELETE FROM parent; 

ERROR 1451 (23000): Cannot delete or update a parent row: a 
foreign key constraint 

fails (`test/child`, CONSTRAINT ‘“child_ibfk_1° FOREIGN KEY 
( parent_id ) REFERENCES 


parent ”( parent_ id )) 


错误 信息 相当 直接 明了 ， 对 所 有 由 增加 、 更 新 或 删除 不 匹配 的 行 
导致 的 错误 都 会 看 到 相似 的 信息 。 下 面 是 SHOW ENGINE INNODB 
STATUS 的 输出 。 


4 070913 10:57:34 Transaction: 


5 TRANSACTION 0 3793469, ACTIVE © sec, process no 5488, OS 


thread id 1141152064 
updating or deleting, thread declared inside InnoDB 499 
6 mysql tables in use 1, locked 1 
7 4 lock struct(s), heap size 1216, undo log entries 1 
8 MySQL thread id 9, query id 305 localhost baron updating 
9 DELETE FROM parent 
10 Foreign key constraint fails for table ‘test/child’: 
a a 
12 CONSTRAINT ~“child_ibfk_1° FOREIGN KEY ( ‘parent_ id ) 
REFERENCES ‘parent’ ( parent_ 
id’) 
13 Trying to delete or update in parent table, in index 
PRIMARY tuple: 
14 DATA TUPLE: 3 fields; 
15 0: len 4; hex 80000001; asc ;; a: len 6; hex 
Q0000039e23d; asc 9 =;; 2: len 
7; hex ©00000002d0e24; asc - $;; 
16 
17 But in child table `test/child`, in index `parent_id`, 
there is a record: 


18 PHYSICAL RECORD: n_fields 2; compact format; info bits 


19 0: len 4; hex 80000001; asc ;; 1: len 6; hex 
000000000500; asc a 


第 4 行 显示 了 最 近 一 次 外 键 错误 的 日 期 和 时 间 。 第 5~9 行 显示 了 关 
于 破坏 外 键 约束 的 事务 详情 。 后 面 会 再 解释 这 些 行 。 第 10~19 行 显示 


了 发 现 错误 时 InnoDB 正 党 试 修改 的 准确 数据 。 输 出 中 有 许多 是 转换 成 
可 打印 格式 的 行 数据 。 关 于 这 点 我 们 同样 会 在 后 面 再 加 以 说 明 。 


到 目前 为 止 还 没有 什么 问题 ， 但 有 另外 一 类 的 外 键 错误 ， 可 能 会 
让 调试 更 难 。 以 下 是 当 我 们 尝试 修改 父 表 时 所 发 生 的 。 


ALTER TABLE parent MODIFY parent_id INT UNSIGNED NOT NULL; 


ERROR 1025 (HY000): Error on rename of './test/#sql-1570_9' 
to './test/parent' 


(errno: 150) 


这 就 没有 那么 清楚 了 ， 但 SHOW ENGINE INNODB STATUS 的 文 
本 给 了 些 指引 信息 。 


2 LATEST FOREIGN KEY ERROR 


4 070913 11:06:03 Error in foreign key constraint of 
table test/child: 


5 there is no index in referenced table which would 


contain 


6 the columns as the first columns, or the data types in 
the 


7 referenced table do not match to the ones in table. 


Constraint: 


8 , 


9 CONSTRAINT child_ibfk_1 FOREIGN KEY (parent_id) 
REFERENCES parent (parent_id) 
10 The index in the foreign key in table is parent_id 
11 See http://dev.mysql.com/doc/refman/5.0/en/innodb - 
foreign-key-constraints.html 


12 for correct foreign key definition. 


本 例 中 的 错误 是 数据 类 型 不 同 。 外 键 列 必须 有 完全 相同 的 数据 类 
型 ， 包 括 任何 修饰 符 (例如 本 例 中 的 UNSIGNED， 这 也 是 问题 所 
在 ) 。 当 看 到 1025 错 误 并 不 理解 为 什么 时 ， 最 好 查看 SHOW ENGINE 
INNODB STATUS。 


在 每 次 有 新 错误 时 ， 外 键 错 误 信 息 都 会 被 重 写 。Percona Toolkit 
的 pt-fk-error-logger 工 具 可 以 保存 这 些 信息 以 供 后 续 分 析 。 


LATEST DETECTED DEADLOCK 


跟 上 面 的 外 键 部 分 一 样 ，LATEST DETECTED DEADLOCK 部 分 
也 只 有 当 服 务 器 内 有 死 锁 时 才 会 出 现 。 死 锁 错 误 信息 同样 在 每 次 有 新 
错误 时 都 会 重 写 Percona Toolkit AY pt-deadlock-logger LAF URE 
这 些 信息 以 供 后 续 分 析 。 


死 锁 在 等 待 天 系 图 里 是 一 个 循环 ， 就 是 一 个 锁定 了 行 的 数据 结构 
又 在 等 待 别 的 锁 。 这 个 循环 可 以 任意 地 大 。InnoDB 会 立即 检测 到 死 
锁 ， 因 为 每 当 有 事务 等 待 行 锁 的 时 候 ， 它 都 会 去 检查 等 待 关系 图 里 是 
否 有 循环 。 死 锁 的 情况 可 能 会 比较 复杂 ， 但 是 ， 这 一 部 分 只 显示 了 最 
近 两 个 死 锁 的 情况 ， 它 们 在 各 自 的 事务 里 执行 的 最 后 一 条 语句 ， 以 及 


它们 在 图 里 形成 循环 锁 的 信息 。 在 这 个 循环 里 你 看 不 到 其 他 事务 ， 也 
看 不 到 在 事务 里 早先 可 能 真正 获得 了 锁 的 语句 。 尽 管 如 此 ， 通 常 还 是 
可 以 通过 查看 这 些 输出 结果 来 确定 到 底 是 什么 引起 了 死 锁 。 


还 


在 InnoDB 里 实际 上 有 两 种 死 锁 。 第 一 种 就 是 人 们 常常 碰 到 的 那 
种 ， 它 在 等 待 关系 图 里 是 一 个 真正 的 循环 。 另 外 一 种 就 是 在 一 个 等 待 
关系 图 里 ， 因 代价 昂贵 而 无 法 检查 它 是 不 是 包含 了 循环 。 如 果 InnoDB 
要 在 关系 图 里 检查 超过 100 万 个 锁 ， 或 者 在 检查 过 程 中 ， InnoDB 要 重 
做 200 个 以 上 的 事务 ， 那 它 就 会 放弃 ， 并 宣布 这 里 有 一 个 死 锁 。 这 些 数 
值 都 是 硬 编码 在 mnoDB 代 码 里 的 常量 ， 无 法 配置 《如 果 你 愿意 ， 可 以 
在 代码 里 更 改 这 些 数 值 ， 然 后 重新 编译 ) 。 当 InnoDB 的 检查 工作 超过 
这 个 极限 后 ， 它 就 会 引发 一 个 死 锁 ， 这 时 你 就 可 以 在 输出 里 看 到 一 条 
信息 “TOO DEEP OR LONG SEARCH IN THE LOCK TABLE WAITS- 
FOR GRAPH”, 


ImnoDBA MAI HWSsSNSSHARSRNM, MELAR 
本 身 。 这 些 信息 主要 对 于 InnoDB 开 发 者 有 用 ， 但 目前 也 没有 办 法 禁止 
显示 。 不 乎 的 是 ， 它 会 变 得 很 大 ， 以 致 超过 为 输出 结果 预 留 的 长 度 ， 
使 你 无 法 看 到 下 面 几 段 输出 信息 。 对 此 唯一 的 补救 办 法 是 ， 制 造 一 个 
小 的 死 锁 来 蔡 换 那个 大 的 死 锁 ， 或 者 使 用 Percona Server， 该 服务 器 软 
件 增加 了 配置 变量 来 抑制 过 于 详尽 的 文本 。 


下 面 是 一 个 死 锁 信息 的 样 例 。 


4 070913 11:14:21 
5 *** (1) TRANSACTION: 
6 TRANSACTION 0 3793488, ACTIVE 2 sec, process no 5488, OS 
thread id 1141287232 
starting index read 
7 mysql tables in use 1, locked 1 
8 LOCK WAIT 4 lock struct(s), heap size 1216 
9 MySQL thread id 11, query id 350 localhost baron Updating 
10 UPDATE test.tiny_dl SET a = 0 WHERE a <> 0 
11 *** (1) WAITING FOR THIS LOCK TO BE GRANTED: 
12 RECORD LOCKS space id 0 page no 3662 n bits 72 index 
*GEN_CLUST_INDEX~ of table 
*test/tiny_dl° trx id © 3793488 lock_mode X waiting 
13 Record lock, heap no 2 PHYSICAL RECORD: n_fields 4; 
compact format; info bits 0 
14 0: len 6; hex 000000000501 ...[ omitted | 
15 
16 *** (2) TRANSACTION: 
17 TRANSACTION 0 3793489, ACTIVE 2 sec, process no 5488, OS 
thread id 1141422400 
starting index read, thread declared inside InnoDB 500 
18 mysql tables in use 1, locked 1 
19 4 lock struct(s), heap size 1216 
20 MySQL thread id 12, query id 351 localhost baron 
Updating 
21 UPDATE test.tiny_dl SET a = 1 WHERE a <> 1 


22 *** (2) HOLDS THE LOCK(S): 


23 RECORD LOCKS space id © page no 3662 n bits 72 index 
‘GEN_CLUST_INDEX of table 
‘test/tiny_ dl trx id © 3793489 lock mode S 
24 Record lock, heap no 1 PHYSICAL RECORD: n_fields 1; 
compact format; info bits 0 
25 0: ... [ omitted | 
26 
27 *** (2) WAITING FOR THIS LOCK TO BE GRANTED: 
28 RECORD LOCKS space id 0 page no 3662 n bits 72 index 
*GEN_CLUST_INDEX~ of table 
*test/tiny_dl° trx id © 3793489 lock_mode X waiting 
29 Record lock, heap no 2 PHYSICAL RECORD: n_fields 4; 
compact format; info bits 0 
30 0: len 6; hex 000000000501 ...[ omitted ] 
31 
32 *** WE ROLL BACK TRANSACTION (2) 


第 4 行 显示 的 是 死 锁 发 生 的 时 间 ， 第 5 一 10 行 显示 的 是 死 锁 里 的 第 
一 个 事务 的 信息 。 在 下 一 节 里 ， 我 们 会 详尽 地 解释 这 些 输出 的 含义 。 


第 11~ 人 15 行 显示 的 是 当 死 锁 发 生 时 ， 事 务 1 正在 等 待 的 锁 。 我 们 忽 
略 了 其 中 第 14 行 的 信息 ， 那 是 因为 这 只 对 调试 才 有 用 。 这 里 要 特别 注 
意 的 内 容 是 第 12 行 ， 它 告诉 你 这 个 事务 正在 等 待 对 test.tiny_dl 表 中 的 
GEN_CLUST_INDEXG) 索 引 上 排他 锁 (X 锁 ) o 


第 16~~21 行 显示 的 是 第 二 个 事务 的 状态 ， 第 22~26 行 显示 的 是 该 
事务 持 有 的 锁 。 为 了 简洁 起 见 ， 在 第 25 行 有 几 条 记录 已 经 被 我 们 删 去 


了 。 这 些 记 录 里 有 一 条 就 是 第 一 个 事务 正在 等 待 的 那 一 条 。 最 后 ， 第 
27~31 行 显示 了 它 正在 等 待 的 是 哪 一 个 锁 。 


当 一 个 事务 持 有 了 其 他 事务 需要 的 锁 ， 同 时 又 想 获取 其 他 事务 持 
有 的 锁 时 ， 等 待 关系 图 上 就 会 产生 循环 了 。InnoDB 不 会 显示 所 有 持 有 
和 等 待 的 锁 ， 但 是 ， 它 显示 了 足够 的 信息 来 帮 你 确定 : 查询 操作 正在 
使 用 哪些 索引 。 这 对 于 你 确定 是 否 能 避免 死 锁 有 着 极 大 的 价值 。 


如 果 能 使 两 个 查询 对 同一 个 索引 朝 同一 个 方向 进行 扫描 ， 就 能 降 
低 死 锁 的 数目 ， 因 为 ， 查 询 在 同一 顺序 上 请 求 锁 的 时 候 不 会 创建 循 
环 。 有 时 候 ， 这 是 很 容易 做 到 的 ， 举 例 来 说 ， 如 果 要 在 一 个 事务 里 更 
新 许多 条 记录 ， 就 可 以 在 应 用 程序 的 内 存 里 把 它们 按 主键 进行 排序 ， 
然后 ， 再 用 同样 的 顺序 更 新 到 数据 库 ， 这 样 就 不 会 有 死 锁 的 发 生 。 但 
是 在 另 一 些 时 候 ， 这 个 方法 也 是 行 不 通 的 〈 例 如 有 两 个 进程 使 用 了 不 
同 的 索引 区 间 操 作 同一 张 表 的 时 候 ) o 


第 32 行 显示 的 是 哪个 事务 被 选中 成 为 死 锁 的 牺牲 品 。InnoDB 会 把 
看 上 去 最 容易 回 滚 〈 就 是 更 新 的 记录 数 最 少 的 ) 的 事务 选 为 牺牲 品 。 


检测 这 些 常规 日 志 ， 从 中 找 出 线程 所 涉及 的 查询 ， 然 后 看 一 下 到 
底 是 什么 导致 死 锁 ， 这 非常 有 用 。 下 节 将 介绍 在 哪里 可 以 碍 找到 死 锁 
输出 中 的 线程 ID。 


TRANSACTIONS 


本 节 包 含 了 一 些 关 于 InnoDB 事 务 的 总 结 信息 ， 紧 随 其 后 是 当前 活 
跃 事务 列表 。 以 下 是 前 几 行 信息 (Kab) 。 


2 TRANSACTIONS 
E Sees eee ee 
Trx id counter 0 80157601 


4 
5 Purge done for trx's n:o <0 80154573 undo n:o <0 0 
6 History list length 6 

7 


Total number of lock structs in row lock hash table 0 
输出 会 因 MySQL 版 本 不 同 而 变化 ， 但 至 少 包 括 如 下 几 点 。 


第 4 行 : 当前 事务 的 ID ， 这 是 一 个 系统 变量 ， 每 创建 一 个 新 事务 
都 会 增加 。 

第 5 行 : 这 是 ImnoDB 清 除 旧 MVCC 行 时 所 用 的 事务 ID。 将 这 个 值 
和 当前 事务 ID 进行 比较 ， 可 以 知道 有 多 少 老 版 本 的 数据 未 被 清 
除 。 这 个 数字 多 大 才 可 以 安全 的 取 值 没有 硬性 和 速成 的 规定 。 如 
果 数 据 没 做 过 任何 更 新 ， 那 么 一 个 巨大 的 数字 也 不 意味 着 有 未 清 
除 的 数据 ， 因 为 实际 上 所 有 事务 在 数据 库 里 查看 的 都 是 同一 个 版 
本 的 数据 。 从 另 一 方面 来 讲 ， 如 果 有 很 多 行 被 更 新 ， 那 每 一 行 就 
会 有 一 个 或 多 个 版 本 留 在 内 存 里 。 减 少 此 类 开销 的 最 好 办 法 是 确 
保 事务 一 完成 就 立即 将 它 提 交 ， 不 要 让 它 长 时 间 地 人 处 于 打开 的 状 
态 。 因 为 一 个 打开 的 事务 即使 不 做 任何 操作 ， 也 会 影响 到 InnoDB 
清理 旧版 本 的 行 数据 。 

同样 是 在 第 5 行 里 ， 还 有 一 项 InnoDB 清理 进程 正在 使 用 的 撤销 日 
志 编 号 ， 如 果 有 的 话 。 如 果 它 是 “0 0”， 如 在 本 例 中 一 样 ， 说 明 清 
理 进 程 处 于 空闲 状态 。 


。 第 6 行 : 历史 记录 的 长 度 ， 即 位 于 InnoDB 数据 文件 的 撤销 空间 里 
的 页 面 的 数目 。 如 果 事务 执行 了 更 新 并 提交 ， 这 个 数字 就 会 增 
加 ; 而 当 清 理 进程 移 除 旧版 本 数据 时 ， 它 就 会 递减 。 清 理 进程 也 
会 更 新 第 5 行 中 的 数值 。 

。 第 7 行 : 锁 结构 的 数目 。 每 一 个 锁 结 构 经 常 持 有 许多 个 行 锁 ， 所 
以 ， 它 跟 被 锁定 行 的 数目 不 一 样 。 


头 部 信息 之 后 就 是 一 个 事务 列表 。 当 前 版 本 的 MySQL 还 不 支持 能 
套 事务 ， 因 此 ， 在 某 个 时 间 点 上 ， 每 个 客户 端 连接 能 拥有 的 事务 数目 
是 有 一 个 上 限 的 ， 而 且 每 一 个 事务 只 能 属于 单一 连接 。 在 输出 信息 
里 ， 每 一 个 事务 至 少 占有 两 行内 容 。 下 面 这 个 例子 就 是 关于 一 个 事务 
所 能 看 到 的 最 少 的 信息 。 


1 ---TRANSACTION 0 3793494, not started, process no 5488, 
OS thread id 1141152064 


2 MySQL thread id 15, query id 479 localhost baron 


第 1 行 以 该 事务 的 ID 和 状态 开始 。 这 个 事务 是 “not started”, BB 
是 已 经 提交 并 且 没有 再 发 起 影响 事务 的 语句 ; DENISA. ABS 
一 些 进程 和 线程 信息 。 第 2 行 显示 了 MySQL 进 程 ID， 也 和 SHOW FULL 
PROCESSLIST 中 的 Id 列 相 同 。 紧 随 其 后 的 是 一 个 内 部 查询 号 和 一 些 连 
接 信 息 (同样 与 SHOW FULL PROCESSLIST 中 的 相同 ) 。 


然而 ， 每 个 事务 会 打印 比 这 多 得 多 的 信息 。 下 面 是 一 个 稍 复杂 一 
些 的 例子 。 


1 ---TRANSACTION © 80157600, ACTIVE 4 sec, process no 3396, 
OS thread id 1148250464, 
thread declared inside InnoDB 442 
2 mysql tables in use 1, locked 0 
3 MySQL thread id 8079, query id 728899 localhost baron 
Sending data 
4 select sql_calc_found_rows * from b limit 5 
5 Trx read view will not see trx with id>= 0 80157601, sees 


<0 80157597 


本 例 中 的 第 1 行 显示 此 事务 已 经 处 于 活跃 状态 4s。 可 能 的 状态 有 
“not started”, “active”、“prepared> 和 “committed in memory” (一旦 被 提 
交 到 磁盘 上 ， 状 态 就 会 变 为 “not started”) 。 尽 管 在 这 个 示例 里 没有 显 
示 ， 但 是 在 其 他 条 件 下 ， 你 也 许 能 看 到 关于 事务 当前 正在 做 什么 的 信 
息 。 在 源 代 码 中 有 超过 30 个 字符 串 常量 可 以 显示 在 这 里 ， 例 如 
“fetching rows” “adding foreign keys”， 等 等 。 


第 1 行 里 的 文本 “thread declared inside InnoDB 442” 的 意思 是 该 线程 
正在 InnoDB 内 核 里 做 一 些 操作 ， 并 且 ， 还 有 442 张 “ 票 ”* 可 以 使 用 。 换 
句 话说 ， 就 是 同样 的 SQL 查询 可 以 重新 进入 InnoDB 内 核 442 次 。 这 个 
“ 票 ” 是 系统 用 来 限制 内 核 中 线程 并 发 操作 的 手段 ， 以 防止 其 在 某 些 平 
台 上 运行 失常 。 即 使 线程 的 状态 是 “inside InnoDB”， 它 也 不 是 在 
InnoDB 里 面 完 成 所 有 的 工作 。 查 询 可 能 是 在 服务 器 一 级 做 一 些 操 作 ， 
而 只 是 通过 某 个 途径 跟 InnoDB 内 核 互 动 一 下 。 你 也 可 能 看 到 事务 的 状 
态 Æ “sleeping before joining InnoDB queue” 或 者 “waiting in InnoDB 


queue”o 


接 下 来 一 行 显示 了 当前 语句 里 有 多 少 表 被 使 用 和 锁定 。InnoDB 一 
般 不 会 锁定 表 ， 但 对 有 些 语句 会 锁定 。 如 果 MySQL 服 务 器 在 高 于 
InnoDB 层 次 之 上 将 表 锁 定 ， 这 里 也 是 能 够 显示 出 来 的 。 如 果 事 务 已 经 
锁定 了 几 行 数据 ， 这 里 将 会 有 一 行 信息 显示 出 锁定 结构 的 数目 (再 声 
明 一 次 ， 这 跟 行 锁 是 两 回 事 ) 和 堆 的 大 小 。 具 体例 子 可 以 查看 之 前 的 
死 锁 输出 信息 。 在 MySQL 5.1 及 更 新 的 版 本 里 ， 这 一 行 还 显示 了 当前 
事务 持 有 的 行 锁 的 实际 数目 。 


堆 的 大 小 指 的 是 为 了 持 有 这 些 行 锁 而 占用 的 内 存 大 小 。InnoDB 是 
用 一 种 特殊 的 位 图 表 来 实现 行 锁 的 ， 从 理论 上 讲 ， 它 可 将 每 一 个 锁定 
的 行 表示 为 一 个 比特 。 我 们 的 测试 显示 ， 每 一 个 锁 通常 不 超过 4 比特 。 


本 例 中 的 第 3 行 包含 的 信息 略微 多 于 上 例 中 的 第 2 行 : 在 该 行 的 末 
是 线程 状态 “Sending data”， 这 跟 SHOW FULL PROCESSLIST 中 所 看 
到 的 Command 列 相同 。 


如 果 事 务 正 在 运行 一 个 查询 ， 那 么 接 下 来 就 会 显示 出 查询 的 文本 
(或 者 ， 在 某 些 版 本 的 MySQL 里 ， 显 示 其 中 的 一 小 段 ) ， 在 本 例 中 是 
第 4 行 。 


第 5 行 显示 了 事务 的 读 视 图 ， 它 表明 了 因为 版 本 关系 而 产生 的 对 于 
事务 可 见 和 不 可 见 两 种 类 型 的 事务 ID 的 范围 。 在 本 例 中 ， 在 两 个 数字 
之 间 有 一 个 四 个 事务 的 间隙， 这 四 个 事务 可 能 是 不 可 见 的 。InnoDB 在 
执行 查询 时 ， 对 于 那些 事务 ID 正好 在 这 个 间 隐 的 行 ， 还 会 检查 其 可 见 
性 。 


如 果 事 务 正 在 等 待 一 个 锁 ， 那 么 在 查询 内 容 之 后 将 可 以 看 到 这 个 
锁 的 信息 。 在 上 文 的 死 锁 例子 里 ， 这 样 的 信息 已 经 看 到 过 多 次 了 。 不 


在 的 是 ， 输 出 信息 并 没有 说 出 这 个 锁 正 被 其 他 哪个 事务 持 有 。 如 果 使 
用 了 InnoDB 插 件 ， ee 5.1 及 更 高 版 本 中 的 
INFORMATION-SCHEMA 表 中 查 明 这 一 点 。 


如 果 输 出 信息 里 有 很 多 个 事务 ，InnoDB 可 能 会 限制 要 打印 出 来 的 
事务 数目 ， 以 免 输 出 信息 增长 得 太 大 。 这 时 就 会 看 到 “...truncated...”。 


FILE LO 


FILE 1/O 部 分 显示 的 是 VO 辅助 线程 的 状态 ， 还 有 性 能 计数 器 的 状 


4 I/O thread © state: waiting for i/o request (insert 
buffer thread) 
5 I/O thread 1 state: waiting for i/o request (log thread) 
6 I/O thread 2 state: waiting for i/o request (read 
thread) 
7 I/O thread 3 state: waiting for i/o request (write 
thread) 
8 Pending normal aio reads: ©, aio writes: 0, 
9 ibuf aio reads: 0, log i/o's: ©, sync i/o's: 0 
10 Pending flushes (fsync) log: 0; buffer pool: 0 


11 17909940 OS file reads, 22088963 OS file writes, 1743764 


OS fsyncs 
12 0.20 reads/s, 16384 avg bytes/read, 5.00 writes/s, 0.80 


fsyncs/s 


第 4~7 行 显示 了 LO 辅助 线程 的 状态 。 第 8~~10 行 显示 的 是 每 个 畏 
助 线程 的 挂 起 操作 的 数目 ， 以 及 日 志和 缓冲 池 线程 挂 起 的 fsyncO 操 作 
数目 。 简 写 “aio” 的 意思 是 “异步 W/O”。 第 11 行 显示 了 读 、 写 和 fsync() 调 
用 执行 的 数目 。 在 你 的 负载 下 这 些 绝对 值 会 有 所 不 同 ， 因 此 更 重要 的 
是 监控 它们 过 去 一 段 时 间 内 是 如 何 改变 的 。 第 12 行 显示 了 在 头 部 显示 
的 时 间 段 内 的 每 秒 平均 值 。 


在 第 8 一 9 行 显示 的 挂 起 值 是 检测 MO 受 限 的 应 用 的 一 个 好 方法 。 如 
果 这 些 IO 大 部 分 有 挂 起 的 操作 ， 那 么 负载 可 能 IO 受 限 。 


在 windows 下 ， 可 以 通过 innodb_file io_threads 配 置 变量 来 调整 IO 
辅助 线程 数 ， 因 此 可 能 会 看 到 不 止 一 个 读 线程 和 写 线 程 。 在 使 用 了 
InnoDB 插 件 的 MySQL 5.1 和 更 新 版 本 中 ， 或 Percona Server 中 ， 可 以 使 
用 innodb_read io _threads 和 innodb_write io_threads 来 为 读 / 写 配置 多 个 
线程 。 然 而 ， 在 所 有 平台 下 至 少 总 会 看 到 4 个 线程 。 


Insert buffer thread 


负责 插入 缓冲 合并 〈 例 如 ， 记 录 被 从 插入 缓冲 合并 到 表 空 间 
中 ) 。 


Log thread 


负责 异步 刷 日 志 。 


Read thread 
执行 预 读 操作 以 尝试 预先 读 取 InnoDB 预 感 需要 的 数据 。 
Write thread 


刷 脏 缓冲 。 


INSERT BUFFER AND ADAPTIVE 
HASH INDEX 


这 部 分 显示 了 InnoDB 内 这 两 个 结构 的 状态 。 


4 Ibuf for space ©: size 1, free list len 887, seg size 
889, is not empty 
5 Ibuf for space 0: size 1, free list len 887, seg size 
889, 
6 2431891 inserts, 2672643 merged recs, 1059730 merges 
7 Hash table size 8850487, used cells 2381348, node heap 
has 4091 buffer(s) 


8 2208.17 hash searches/s, 175.05 non-hash searches/s 


第 4 行 显示 了 关于 插入 缓存 大 小 、“free list” 的 长 度 和 段 大 小 的 信 
息 。 文 本 “for space 0” 像 是 指明 了 多 个 插入 缓冲 的 可 能 性 一 一 每 个 表 空 
间 一 个 ， 但 从 未 实现 ， 并 且 这 个 文本 在 最 近 的 MySQL 版 本 中 被 移 除 掉 

。 只 有 一 个 插入 缓冲 ， 因 此 第 5 行 真 的 是 多 余 的 。 第 6 行 显示 了 有 多 
少 缓冲 操作 已 经 完成 。 合 并 与 插入 的 比例 很 好 地 说 明了 缓冲 使 用 效率 
如 何 。 


第 7 行 显 示 了 自 适 应 哈 希 索引 的 状态 。 第 8 行 显示 了 在 头 部 提 及 的 
时 间 内 InnoDB 完 成 了 多 少 哈 希 索引 操作 。 哈 希 索 引 查找 与 非 哈 希 索引 
查找 的 比例 仅 供 参考 。 自 适应 索引 无 法 配置 。 


LOG 


这 部 分 显示 了 关于 InnoDB 事 务 日 志 (BRAS) 子 系统 的 统计 。 


工 

2 

3 

4 Log sequence number 84 3000620880 

5 Log flushed up to 84 3000611265 

6 Last checkpoint at 84 2939889199 

7 © pending log writes, © pending chkp writes 
8 


14073669 log i/o's done, 10.90 log i/o's/second 


第 4 行 显 示 了 当前 日 志 序 号 ， 第 5 行 显 示 了 日 志 已 经 刷 到 哪个 位 
置 。 日 志 序 号 就 是 写 到 日 志文 件 中 的 字 节 数 ， 因 此 可 用 来 计算 日 志 缓 


冲 中 还 有 多 少 没有 写 入 到 日 志文 件 中 。 在 这 个 例子 中 ， 它 有 9615 字 节 
(13 000 620 880 一 13 000 611 265) 。 第 6 行 显示 了 上 一 检测 点 (一 个 
检测 点 表示 一 个 数据 和 日 志文 件 都 处 于 已 知 状态 的 时 刻 ， 并 且 能 用 于 
WE) 。 如 果 上 一 检查 点 落后 日 志 序号 太 多 ， 并 且 差 异 接近 于 该 日 志 
文件 的 大 小 ，InnoDB 会 触发 < 疯狂 刷 ”， 这 对 性 能 而 言 非常 糟糕 。 第 7 
~8 行 显示 了 挂 起 的 日 志 操 作 和 统计 ， 你 可 以 将 其 与 FILE IO 部 分 的 值 
相 比 较 ， 以 了 解 你 的 VO 有 多 少 是 由 日 志 子 系统 引起 ， 有 多 少 是 其 他 原 
因 。 


BUFFER POOL AND MEMORY 


这 部 分 显示 了 关于 InnoDB 缓 冲 池 及 其 如 何 使 用 内 存 的 统计 。 


4 Total memory allocated 4648979546; in additional pool 

allocated 16773888 

5 Buffer pool size 262144 

6 Free buffers 0 

7 Database pages 258053 

8 Modified db pages 37491 

9 Pending reads 0 

10 Pending writes: LRU ©, flush list ©, single page 0 


11 Pages read 57973114, created 251137, written 10761167 


12 9.79 reads/s, 0.31 creates/s, 6.00 writes/s 


13 Buffer pool hit rate 999 / 1000 


第 4 行 显示 了 由 InnoDB 分 配 的 总 内 存 ， 以 及 其 中 多 少 是 额外 内 存 
闻 分 配 。 额 外 内 存 闻 仅 分 配 了 其 中 (一般 很 小 ) 一 部 分 的 内 存 ， 由 内 
部 内 存 分 配器 分 配 。 现 代 的 InnoDB 版 本 一 般 使 用 操作 系统 的 内 存 分 配 
器 ， 但 老 版 本 使 用 自己 的 ， 这 是 由 于 在 那个 时 代 有 些 操作 系统 并 未 提 
供 一 个 非常 好 的 实现 。 


第 5~8 行 显示 了 缓冲 闻 度 量 值 ， 以 页 为 单位 。 度 量 值 和 有 总 的 缓冲 
闻 大 小 、 空 闪 页 数 、 分 配 用 来 存储 数据 库 页 的 页 数 ， 以 及 “ 脏 ” 数 据 库 
页 数 。InnoDB 使 用 缓冲 池 中 的 部 分 页 来 对 锁 、 自 适应 哈 希 ， 以 及 其 他 
系统 结构 做 索引 ， 因 此 池 中 的 数据 库 页 数 永远 不 等 于 总 的 池 大 小 。 


第 9 一 10 行 显示 了 挂 起 的 读 和 写 的 数量 (例如 InnoDB 需 要 为 缓冲 
闻 而 做 的 总 的 逻辑 读 和 写 ) 。 这 些 值 并 不 与 FILE VO 部 分 的 值 相 匹 
臣 ， 因 为 InnoDB 可 能 合并 许多 的 逻辑 操作 到 一 个 物理 IO 操作 中 。 
LRU 人 代表“ 最 近 使 用 到 的 它 是 通过 冲刷 缓冲 中 不 经 常 使 用 的 页 来 释 
放空 间 以 供给 经 常 使 用 的 页 的 一 种 方法 。 冲 刷 列表 存放 有 检测 点 处 理 
需要 冲刷 的 旧 页 ， 并 且 单 页 的 写 是 独立 的 页 面 瑟 ， 不 会 被 合并 。 


输出 中 的 第 8 行 显示 缓冲 池 包 含 37 491 个 脏 页 ， 这 是 在 某 些 时 刻 
(它们 已 经 在 内 存 中 被 修改 但 尚未 写 到 磁盘 上 ) 需要 被 刷 到 磁盘 上 
的 。 然 而 ， 第 10 行 显示 当前 没有 安排 冲刷 。 这 不 是 一 个 问题 ; InnoDB 
会 在 需要 时 刷 。 如 果 在 InnoDB 的 状态 输出 中 到 处 可 见 大 量 挂 起 的 IO 
操作 ， 这 往往 表明 服务 器 有 严重 问题 。 


第 11 行 显示 了 InnoDB 被 读 取 、 创 建 和 写 入 了 多 少 页 。 读 / 写 页 的 值 
指 的 是 从 磁盘 读 到 缓冲 池 中 的 数据 ， 或 反 过 来 说 。 创 建 页 的 值 指 的 是 
InnoDB 在 缓冲 池 中 分 配 但 没有 从 数据 文件 中 读 取 内 容 的 页 ， 因 为 它 并 
不 关心 内 容 是 什么 (例如 ， 它 们 可 能 属于 一 个 已 经 被 删除 的 表 ) 。 


第 13 行 报告 了 缓冲 闻 的 命中 率 ， 它 用 来 衡量 InnoDB 在 缓冲 闻 中 查 
找到 所 需 页 的 比例 。 它 度量 自 上 次 InnoDB 状 态 输出 后 的 命中 率 ， 因 
此 ， 如 果 服 务 器 上 自 那 以 后 一 直 很 安静 ， 你 将 会 看 到 “No buffer pool page 
gets since the last printout.”。 它 对 于 度量 缓存 闻 的 大 小 并 没有 用 处 。 


在 MySQL 5.5 中 ， 可 能 有 多 个 缓冲 池 ， 每 一 个 都 会 在 输出 中 打印 
一 部 分 信息 。Percona XtraDB 还 会 在 输出 中 打印 更 多 详情 一 一 例如 ， 
准确 显示 内 存在 哪里 分 配 。 


ROW OPERATIONS 


这 部 分 显示 了 其 他 各 项 InnoDB 统 计 。 


4 © queries inside InnoDB, © queries in queue 
5 1 read views open inside InnoDB 
6 Main thread process no. 10099, id 88021936, state: 
waiting for server activity 


7 Number of rows inserted 143, updated 3000041, deleted 0, 


read 24865563 
8 0.00 inserts/s, 0.00 updates/s, 0.00 deletes/s, 0.00 


reads/s 


第 4 行 显示 了 InnoDB 内 核 内 有 多 少 线程 (我 们 在 讨论 
TRANSACTIONS 部 分 的 小 节 中 提 六 过 ) 。 队 列 中 的 查询 是 InnoDB 为 
限制 并 发 执行 的 线程 量 而 不 允许 进入 内 核 的 线程 。 查 询 同 样 在 进入 队 
列 之 前 会 休眠 等 待 ， 这 之 前 已 经 讨论 过 


第 5 行 显示 了 有 多 少 打开 的 InnoDB 读 视图 。 读 视图 是 包含 事务 开 
始点 的 数据 库 内 容 的 MVCC“ 快 照 ?。 你 可 以 看 看 某 特定 事务 是 否 在 
TRANSACTIONS 部 分 有 读 视 图 。 


第 6 行 显示 了 内 核 的 主线 程 状态 。 可 能 的 状态 值 如 下 。 


e doing background drop tables 
e doing insert buffer merge 

e flushing buffer pool pages 

e flushing log 

e making checkpoint 

e purging 

e reserving kernel mutex 

e sleeping 


e suspending 


waiting for buffer pool flush to end 


e waiting for server activity 


在 大 部 分 服务 器 上 应 该 会 经 常 看 到 “sleeping”， 如 果 生 成 多 个 快照 
而 一 再 查看 到 不 同 的 状态 ， 例 如 “flushing buffer pool pages”， 则 应 该 怀 
疑 相关 的 活动 有 问题 一 一 例如 ,，“ 疯 狂 刷 ”问题 ， 可 能 由 某 个 冲刷 算法 
差劲 的 InnoDB 有 版 本 引起 ， 或 由 糟糕 的 配置 导致 ， 例 如 太 小 的 事务 日 志 
文件 。 


第 7~8 行 显示 了 多 少 行 被 插入 、 更 新 、 删 除 和 读 取 ， 以 及 它们 的 
每 秒 均值 。 如 果 想 查看 InnoDB 有 多 少 工作 在 进行 ， 那 么 它们 是 很 好 的 
参考 值 。 


SHOW ENGINE INNODB STATUS 输 出 在 第 9~~13 行 结束 。 如 果 看 
到 这 个 文本 ， 那 可 能 是 有 一 个 大 的 死 锁 截断 了 输出 。 


SHOW PROCESSLIST 


进程 列表 是 当前 连接 到 MySQL 的 连接 或 线程 的 清单 。SHOW 
PROCESSLIST 列 出 了 这 些 线程 ， 以 及 每 个 线程 的 状态 信息 。 例 如 : 


mysql> SHOW FULL PROCESSLIST\G 


大 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 1 row 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 


Id: 61539 
User: sphinx 
Host: Se02:58392 


db: art136 


Command: Query 
Time: 0 
State: Sending data 
Info: SELECT a.id id, a.site_id site_id, 
unix_timestamp(inserted) AS 


inserted, forum_id, unix_timestamp(p 


火炎 大火 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 2 row 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 


Id: 65094 
User: mailboxer 
Host: db01:59659 
db: link84 
Command: Killed 
Time: 12931 
State: end 
Info: update 1ink84.link_in84 set url_to = 


replace(replace(url_to, '&', '&'),'%20','+'), url_prefix=repl 


有 几 个 工具 (例如 innotop) 可 以 以 定期 刷新 的 方式 显示 进程 列 
表 。 


也 可 以 从 INFORMATION_SCHEMA 中 的 表 来 获取 这 个 信息 。 
Percona Server 和 MariaDB 向 这 个 表 中 增加 了 ro 的 信息 ， 如 高 精 
度 的 时 间 字 段 和 显示 查询 完成 百分比 的 字段 ， 这 一 信息 可 用 作 进 度 指 


小 o 


Command 和 State 列 真正 表明 了 线程 的 状态 。 上 面 的 例子 中 ， 第 一 
进程 正在 运行 查询 并 发 送 数 据 ， 而 第 二 个 进程 已 被 杀 死 ， 这 可 能 是 


由 于 这 需要 非常 长 的 一 段 时 间 来 完成 ， 于 是 某 人 深思 熟 虑 后 通过 KILL 
命令 终结 了 它 。 线 程 有 可 能 在 KILL 状 态 停留 一 段 时 间 ， 因 为 KILL 命 
令 有 可 能 不 能 立刻 执行 完成 ， 比 如 它 可 能 需要 一 些 时 间 来 回 滚 事 务 。 


SHOW FULL PROCESSLIST (增加 了 FULL 关 键 字 ) 将 显示 每 个 


查询 的 全 文 ， 否 则 最 多 显示 100 个 字符 。 


SHOW ENGINE INNODB MUTEX 


SHOW ENGINE INNODB MUTEX ì§ [E] InnoDB E F f4 $5 )¥ A 15 
息 ， 主 要 对 洞悉 可 扩展 性 和 并 发 性 问题 有 帮助 。 每 个 互 斥 体 都 保护 着 
代码 中 一 个 临界 区 ， 这 在 之 前 已 经 讨论 过 


输出 会 因 MySQL 版 本 和 编译 选项 而 有 所 不 同 。 下 面 是 MySQL 5.5 
服务 器 的 示例 。 


mya — ENGINE INNODB MUTEX; 


--------+------------------------------ +-------------+ 
Type Name Status 

+--------+------------------------------ +------------- 十 
InnoDB | &table->autoinc_mutex os_waits=1 
InnoDB | &table->autoinc_mutex os_waits=1 
InnoDB | &table->autoinc_mutex os_waits=4 
InnoDB | &table->autoinc_mutex os _waits=1 
InnoDB | &table->autoinc_mutex os _waits=12 
InnoDB | &dict_sys->mutex os_waits=1 
InnoDB | &log_sys->mutex os_waits=12 
InnoDB | &fil_system->mutex os_waits=11 
InnoDB | &kernel_mutex os_waits=1 


InnoDB | &dict _table_ stats_latches[i] | os _waits=2 
InnoDB &dict table stats_latches[i] | os_waits=54 
atches[i] | os_waits=1 
InnoDB | &dict _table | stats_latches[i] | os waits=31 
InnoDB | &dict “table_ stats_latches[i] | os_waits=41 
InnoDB | &dict table stats latches[i] os_waits=12 
InnoDB &dict “table stats latches[i] | os waits=1 
atches[i] | os_waits=90 
InnoDB | &dict “table stats_latches[i] | os_waits=1 


InnoDB | &dict_operation_lock os_waits=13 
InnoDB | &log_sys->checkpoint_lock os_waits=66 
InnoDB | combined &block->lock os_waits=2 


基于 等 待 的 数量 ， 可 以 使 用 这 个 输出 来 帮助 确定 InnoDB 的 哪 一 块 
是 瓶颈 。 只 要 有 互 斥 体 ， 就 会 有 潜在 的 争 用 。 该 命令 的 输出 可 能 会 非 
常 多 ， 需要 写 一 些 脚本 进行 聚合 分 析 。 


有 三 种 主要 的 策略 可 以 消除 互 斥 相关 的 瓶颈 : 尽量 避 开 InnoDB 的 
弱点 ， 限 制 并 发 ， 或 者 在 CPU 密 集 型 的 空转 等 待 和 资源 密集 型 的 操作 
系统 等 待 之 间 取 得 平衡 。 这 些 在 本 附录 前 面 和 第 8 章 讨论 过 。 


复制 状态 


MySQL 有 几 个 命令 用 以 监测 复制 。 在 主 库 上 执行 SHOW MASTER 
STATUS 可 显示 主 库 的 复制 状态 和 配置 。 


mysql> SHOW MASTER STATUS\G 


HRA RRR IKI REAR AAR ER REE 1. row 
RRR RIOR IRI RAK RHEE EEE 
File: mysql-bin.000079 
Position: 13847 
Binlog_Do_DB: 


Binlog_Ignore_DB: 


输出 包含 了 主 库 当 前 的 二 进 制 日 志 人 位置。 通过 SHOW BINARY 
LOGS 可 以 获取 到 二 进 制 日 志 的 列表 。 


i SHOW BINARY ou 


| mysql-bin.o00044 | 13677 | 


l ‘nysql- bin.000079 | 13847 | 


- rows in set (0. p sec) 


要 查看 这 些 二 进 制 日 志 中 的 事件 ， 可 以 用 SHOW BINLOG 


EVENTS. 在 MySQL 5.5 中 ， 也 可 以 使 用 SHOW RELAYLOG 
EVENTS。 


在 备 库 上 执行 SHOW SLAVE STATUS 查看 复制 的 状态 和 配置 。 在 
此 ， 我 们 不 予 列举 ， 因 为 输出 有 点 见长 ， 但 我 们 会 说 明 关 于 它 的 几 个 
事情 。 首 先 ， 你 可 以 同时 看 到 复制 1O 和 复制 SQL 线程 的 状态 ， 包 括 任 
何 错误 。 也 可 以 看 到 复制 落后 多 远 。 输 出 中 还 有 三 套 二 级 制 日 志 的 坐 
标 ， 这 几 个 坐标 对 于 备份 和 搭 备 库 非 常 有 用 。 


Master_Log_File/Read_Master_Log_Pos 


IO 线程 读 主 库 二 进 制 日 志 的 位 置 。 


Relay_Log File/Relay_Log Pos 


SQL 线程 执行 中 继 日 志 的 位 置 。 


Relay_Master_Log File/Exec_Master_Log Pos 


SQL 线程 执行 的 映射 到 主 库 二 进 制 日 志 的 位 置 。 这 和 与 
Relay_Log_File/Relay_Log _Pos 有 着 相同 的 逻辑 位 置 ， 但 是 主 库 的 
二 进 制 日 志 而 非 复 制 的 中 继 日 志 。 换 句 话 说 ， 如 果 你 看 一 下 日 志 
中 的 这 两 个 位 置 ， 你 会 发 现 有 相同 的 日 志 事 件 。 


INFORMATION_SCHEMA 


INFORMATION_SCHEMA 库 是 一 个 SQL 标准 中 定义 的 系统 视图 的 
集合 。MySQL 实 现 了 许多 标准 中 的 视图 ， 并 且 增 加 了 一 些 其 他 的 视 
图 。 在 MySQL 5.1 中 ， 其 中 许多 的 视图 与 MySQL 的 SHOW 命令 对 应 ， 
例如 SHOW FULL PROCESSLIST 和 SHOW STATUS。 然 而 ， 也 有 一 些 
视图 并 没有 相对 应 的 SHOW 命令 。 


INFORMATION_SCHEMA 视 图 的 美 在 于 能 够 以 标准 的 SQL 来 进行 
查询 。 这 比 SHOW 命 令 更 灵活 ， 因 为 SHOW 命令 产生 的 结果 不 能 聚 
合 、 联 接 或 进行 其 他 标准 SQL 操作 。 在 系统 视图 层 拥有 所 有 可 获得 的 
数据 使 得 写 感 兴趣 和 有 用 的 查询 变 得 可 行 。 


例如 ， 在 Sakila 样 本 库 中 哪 一 个 表 引 用 了 actor 表 ?一 致 的 命名 约定 
使 之 很 容易 确定 。 


mysql> SELECT TABLE_NAME FROM INFORMATION SCHEMA.COLUMNS 
-> WHERE TABLE_SCHEMA='sakila' AND COLUMN _NAME='actor_id' 
-> AND TABLE NAME <> ‘actor’; 

站 


+------------+ 
| actor info | 


| film actor | 
+------------+ 


我 们 需要 为 本 书 找 几 个 表 中 含有 多 列 索引 的 样 例 。 下 面 是 一 个 满 
足 需要 的 查询。 


mysql> SELECT TABLE_NAME，GROUP_CONCAT(COLUMN_NAME) 
-> FROM INFORMATION SCHEMA. KEY COLUMN USAGE 
-> WHERE TABLE SCHEMA='sakila' 
-> GROUP BY TABLE NAME, CONSTRAINT NAME 
-> HAVING ET ) > 45 


+---------------+--------------------------------------+ 
| film_actor | actor id,film id | 
| film category | film_id,category id | 
| rental | customer id,rental date,inventory id | 
+--------------- +-------------------------------------- + 


你 也 可 以 写 更 复杂 的 查询 ， 就 像 对 待 其 他 党 规 表 一 样 。MySQL 
Forge (http://forge.mysql.com) 是 一 个 寻找 和 分 享 针 对 这 些 视图 的 查询 
的 好 地 方 。 有 查找 重复 和 宛 余 索 引 ， 查 找 非 常 低 基 数 的 索引 ， 以 及 更 
多 其 他 的 例子 。 在 Shlomi Noach 的 common_schema 项目 中 

(http://code.openark.org/forge/common_schema) 中 同样 有 一 组 基于 
INFORMATION_SCHEMA 视 图 所 写 的 有 用 视图 。 


最 大 的 缺点 是 视图 与 相应 的 SHOW 命令 相 比 ， 有 时 非常 慢 。 它 们 
一 般 会 取 所 有 的 数据 ， 存 在 临时 表 中 ， 然 后 使 查询 可 以 获取 临时 表 。 
当 服 务 器 上 数据 量 大 或 表 非 常 多 时 ， 查 询 INFORMATION_SCHEMA 

会 导致 非常 高 的 负载 ， 并 且 会 导致 服务 器 对 其 他 用 户 而 言 停 转 或 不 
可 响应 ， 因 此 在 一 个 高 负载 且 数 据 量 大 的 生产 服务 器 上 使 用 时 要 小 
心 。 查 询 时 会 有 危险 的 表 主 要 是 那些 包含 下 列表 元 数据 的 表 : 
TABLES , COLUMNS ， REFERENTIAL_ CONSTRAINTS , 
KEY_COLUMN_USAGE ， 等 等 。 对 这 些 表 的 查询 会 导致 MySQL 向 存 
储 引 擎 请 求 获取 类 似 服务 器 上 表 的 索引 统计 等 数据 ， 而 这 在 InnoDB 里 
是 非常 繁重 的 。 


这 些 视 图 不 可 更 新 。 尽 管 你 可 以 从 中 检索 到 服务 器 设置 ， 但 不 能 
更 新 以 影响 服务 器 的 配置 ， 因 此 ， 仍 然 需 要 对 配置 使 用 SHOW 和 SET 
命令 ， 尽 管 INFORMATION_SCHEMA 视 图 对 其 他 任务 非常 有 用 。 


InnoDB 表 


TE MySQL 5.1 和 更 新 版 本 中 ，InnoDB 插 件 创建 了 许多 的 
INFORMATION_SCHEMA 表 。 这 些 表 非 常 有 用 。 在 MySQL 5.5 中 有 更 
多 这 样 的 表 ， 而 还 未 发 行 的 MySQL 5.6 中 则 还 要 多 。 


在 MySQL 5.1 中 ， 存 在 如 下 一 些 表 。 


INNODB_CMP 和 INNODB_CMP_RESET 


这 些 表 显示 了 InnoDB 中 以 新 文件 格式 Barracuda 压 缩 的 数据 的 
相关 信息 。 第 二 个 表 显 示 的 信息 与 第 一 个 表 相 同 ， 但 具有 重 置 所 
包含 数据 的 副作用 ， 好 像 使 用 FLUSH 命 令 那样 。 


INNODB_CMPMEM 和 INNODB_CMPMEM_RESET 


这 些 表 显示 了 用 于 InnoDB 压 缩 数 据 的 缓冲 池 中 页 的 信息 。 第 
二 个 表 又 是 一 个 重 置 表 。 


INNODB TRX 和 INNODB LOCKS 


这 些 表 显示 了 事务 ， 拥 有 和 等 待 锁 的 事务 。 它 们 对 于 诊断 锁 
等 待 问题 和 长 时 间 运 行 的 事务 非常 重要 。MySQL 用 户 手 册 上 包含 
了 查询 样 例 ， 你 可 以 直接 复制 、 粘 贴 来 显示 哪 一 些 事务 在 阻塞 其 
他 事务 ， 它 们 正在 运行 的 查询 ， 等 等 。 


除了 这 些 表 ，MySQI 5.5 还 增加 了 INNODB_LOCK_WAITS， 它 可 
以 帮助 更 容易 地 诊断 更 多 类 型 的 锁 等 待 问题 。MySQL 5.6 中 将 会 增加 
显示 关于 InnoDB 内 部 更 多 信息 (包括 缓冲 池 和 数据 字典 ) WR, UR 


称 为 INNODB_METRICS 的 新 表 ， 它 将 是 使 用 Performance Schema 
代 方 案 。 


Percona Server 中 的 表 


Percona Server 向 INFORMATION _SCHEMA 库 中 增加 了 大 量 的 
表 。 原 生 的 MySQL 5.5 服 务 器 有 39 个 表 ， 而 Percona Server 5.5 有 61 个 
表 。 以 下 是 关于 新 增 表 的 概述 。 


“用 尸 统计 信息 ” 表 


这 些 表 源 于 Google 的 MySQL 补 丁 。 它 们 显示 了 客户 端 、 索 
引 、 表 、 线 程 和 用 户 的 活动 统计 。 我 们 在 本 书 中 提 到 了 它们 的 使 
用 ， 例 如 确定 复制 何 时 开始 接近 追赶 上 主 库 的 能 力 极限 。 


InnoDB 数 据 字 典 


一 系列 的 表 以 只 读 表 的 方式 暴露 了 InnoDB 内 部 数据 词典 : 
列 、 外 键 、 索 引 、 统 计 ， 等 等 。 它 们 对 从 InnoDB 角 度 检测 和 理解 
数据 库 非 常 有 帮助 ， 它 可 能 与 MySQL 不 同 ， 因 为 MySQL 依 赖 
于 .frm 文 件 来 存储 数据 字典 。 类 似 的 表 在 MySQL 5.6 发 行 时 会 加 进 
来 。 


InnoDB 缓 冲 池 
这 些 表 使 你 可 以 像 表 一 样 查询 缓冲 池 ， 表 中 每 个 页 是 一 行 ， 


因此 ， 你 可 以 看 到 什么 页 驻 存 于 缓冲 地 中 ， 有 哪 种 类 型 的 页 ， 等 
等 。 这 些 表 已 被 证 实 对 于 诊断 类 似 膨 胀 的 插入 缓冲 非常 有 用 。 


临时 表 


这 些 表 显 示 了 与 INFORMATION_SCHEMA.TABLES 表 中 可 获 
取 的 类 型 相同 的 信息 ， 只 是 用 临时 表 取 代 了 。 有 一 个 用 于 你 自身 
会 话 的 临时 表 ， 还 有 一 个 用 于 整个 服务 器 中 的 所 有 临时 表 。 它 们 
对 某 个 会 话 获 取 可 视 性 到 存在 的 临时 表 中 ， 以 及 它们 使 用 了 多 少 


空间 。 
杂项 表 


有 少数 其 他 表 为 查询 执行 时 间 、 文 件 、 表 空间 和 更 多 InnoDB 
内 部 信息 增加 了 可 视 性 。 


X 于 Percona Server 的 新 增 表 的 文档 可 以 在 
http:/www.percona.com/doc/ 获 取 。 


Performance Schema 


自 MySQL 5.5 起 , Performance Schema (寄存 于 
PERFORMANCE_SCHEMAEE#) 是 MySQL 增 强 仪表 的 新 的 汇总 处 。 
我 们 在 第 3 章 中 已 讨论 过 一 点 。 


默认 情况 下 ，Performance Schema 是 禁 掉 的 ， 你 必须 打开 并 且 使 其 
在 一 个 想 要 收集 的 特定 的 仪表 点 (“消费 者 ”) 启用 。 我 们 对 服务 器 以 
几 个 不 同 的 配置 做 了 基准 测试 ， 发 现 即使 Performance Schema 没有 数据 
可 采集 也 会 导致 8% 人 11% 的 开销 ， 并 且 所 有 消费 都 生效 的 话 会 有 199% 
人 25% 的 开销 ， 具 体 取决 于 是 一 个 只 读 还 是 读 / 写 的 负载 。 这 算 少 还 是 
多 由 你 来 决定 。 


这 在 MySQL 5.6 中 将 改善 ， 特 别 是 当 特 性 本 身 生 效 但 所 有 仪表 点 
都 禁用 时 。 这 对 某 些 用 户 而 言 更 加 实用 ， 他 们 会 让 Performance Schema 
生效 ， 但 直到 收集 信息 时 才 将 其 激活 。 


在 MySQL 5.5 中 ，Performance Schema 包含 了 指示 条 件 变量 、 互 斥 
体 、 读 / 写 锁 和 文件 MO 实例 的 表 。 还 有 指示 实例 上 的 等 待 信息 的 表 ， 
而 这 些 经 常 是 你 在 查询 时 首先 感 兴趣 的 ， 以 及 与 其 实例 表 的 联接 。 这 
些 事件 等 待 表 有 几 种 变 体 ， 拥 有 关于 服务 器 性 能 和 行为 的 当前 和 历史 
信息 。 最 后 ， 还 有 一 组 “设置 表 *， 你 可 以 用 这 些 表 来 使 预想 的 消费 者 
生效 或 失效 。 


在 MySQL 5.6.3 开 发 里 程 碑 的 第 6 个 发 行 中 ，Performance Schema 
中 的 表 数 从 17 增 长 到 了 49。 这 意味 着 MySQL 5.6 中 有 许多 的 仪表 ! 增 
加 的 仪表 涵盖 SQL 语 句 、 语 句 过 程 (基本 上 与 你 在 SHOW 
PROCESSLIST 中 看 到 的 线程 状态 相同 ) 、 表 、 索 引 、 主 机 、 线 程 、 用 
户 、 账 号 ， 以 及 各 种 总 述 及 历史 表 等 。 


你 如 何 使 用 这 些 表 ? 有 49 个 表 ， 得 让 某 些 人 为 此 写 些 工具 来 帮助 
大 家 了 。 然 而 ， 对 于 与 Performance Schema 表 相 对 应 的 早期 流行 的 非 
常 不 错 的 SQL 例子 ， 可 以 阅读 Oracle 工 程 师 Mark Leith 的 博客 上 的 一 些 
文章 ， 例 如 http:/www.markleith.co.uk/?p=471。 


BS 


MySQL 暴 露 服务 器 内 部 信息 的 首要 方式 是 SHOW 命令 ， 但 这 在 改 
变 。 在 MySQL 5.1 中 引入 的 可 插 拔 的 INFORMATION_SCHEMA 表 人 允许 
InnoDB 插 件 增加 一 些 非 常 有 意义 的 仪表 ， 而 Percona Server 增 加 的 要 多 


得 多 。 然 而 ， 读 取 SHOW ENGINE INNODB STATUS 输出 并 解释 的 能 
力 对 管理 InnoDB 仍 然 是 至 关 重要 的 。 在 MySQL 5.5 和 更 新 的 服务 器 版 
本 中 ， 可 以 使 用 Performance Schema， 它 将 来 可 能 变 成 深入 服务 器 内 部 
最 强大 和 完备 的 方式 。Performance Schema 最 棒 的 一 点 在 于 它 是 基于 时 
间 的 ， 这 意味 着 MySQL 最 终 可 以 获取 已 经 逝去 时 间 里 的 仪表 盘 ， 而 不 
仅仅 是 已 操作 的 次 数 。 


(1) 有 个 问题 需要 说 明 : 如 果 在 一 个 新 版 服务 器 上 使 用 老 版 的 mysqladmin， 它 前 两 列 是 自 
服务 器 启动 后 的 值 ， 最 后 两 列 是 自 上 次 刷新 后 的 值 (在 本 例 中 是 10s 之 前 ) 。 百 分 比 是 与 打印 
输出 中 显示 的 总 值 相 比较 ， 而 不 是 与 所 有 查询 的 总 值 相 比 。 


(2) 最 早 在 http:/code.openark.org/blog/mysql/mysql-global-status-difference-using-single- 
query 上 发 表 。 


(3) 在 MySQL 5.1 中 ， 这 个 变量 被 分 解 成 Questions 和 Queries， 两 者 有 轻微 区 别 。 
(4) 在 MySQL 5.1 中 增强 了 等 待 数组 ， 使 其 更 为 高 效 。 
(5) 这 是 在 不 指定 主键 时 InnoDB 内 部 创建 的 索引 。 


附录 C 大 文件 传输 


在 管理 MySQL、 和 初始 化 服务 器 、 克 隆 复制 和 进行 备份 /还 原 操作 
时 ， 复 制 、 压 缩 和 解压 缩 大 文件 (常常 是 跨 网 络 的 ) 是 很 常见 的 任 
务 。 能 够 最 快 最 好 完成 这 些 任务 的 方法 并 不 总 是 显而易见 的 ， 并 且 方 
法 好 坏 的 差异 可 能 非常 显著 。 这 个 附录 将 通过 几 个 例子 演示 使 用 常见 
的 UNIX 实 用 工具 ， 将 一 个 大 尺寸 的 备份 镜像 从 一 台 服 务 器 复制 到 其 他 
服务 器 。 


通常 从 未 压缩 的 文件 开始 ， 例 如 一 台 服 务 器 上 的 InnoDB 表 空 间 和 
日 志文 件 。 当 然 ， 在 把 文件 复制 到 目的 地 之 后 要 再 将 它 解压 缩 。 另 外 
一 个 常见 的 场景 是 以 压缩 文件 开始 ， 例 如 备份 镜像 文件 ， 以 解压 文件 
结束 。 


如 果 网 络 传输 能 力 有 限 ， 那 么 用 压缩 格式 在 网 络 间 发 送 文件 是 个 
好 方法 。 你 可 能 还 需要 一 个 安全 的 传输 途径 ， 使 数据 不 会 被 损坏 ) 这 
对 于 备份 镜像 文件 来 说 ， 是 一 个 很 党 见 的 需求 。 


复制 文件 
这 个 任务 实际 上 就 是 完成 以 下 事情 。 


1. (可 选 ) 压缩 数据 。 

2. 发 这 到 另外 一 台 机 器 上 。 

3. 把 数据 解压 缩 到 最 终 目的 地 。 

4. 在 复制 完成 后 ， 校 验 文件 以 确认 其 没有 被 损坏 。 


我 们 对 能 达成 这 些 目标 的 一 系列 方法 进行 了 基准 测试 。 本 附录 的 
余下 部 分 将 展示 我 们 是 怎么 做 的 ， 以 及 我 们 找到 的 最 快速 的 方法 是 什 
4 
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对 于 在 本 书 里 讨论 过 的 很 多 目的 ， 例 如 备份 ， 你 可 能 要 考虑 在 哪 
一 台 机 器 上 做 压缩 会 更 好 一 点 。 如 果 有 足够 的 网 络 带 宽 ， 还 是 复制 未 
压缩 形式 的 备份 镜像 文件 为 好 ， 这 样 可 以 在 MySQL 服 务 器 上 节省 出 
CPU 资产 供 碍 询 使 用 。 


一 个 简单 的 示例 


我 们 以 一 个 简单 的 示例 开始 ， 安 全 地 将 一 个 未 压缩 的 文件 从 一 人 台 
机 器 发 送 到 另外 一 台 上 ， 途 中 将 它 进行 压缩 ， 然 后 再 解压 。 在 称 为 
server1 的 源 服务 器 上 上， 执行 如 下 命令 。 


Server1$ gzip -c /backup/mydb/mytable.MYD > mytable.MYD.gz 
server1$ scp mytable.MYD.gz 


root@server2:/var/1ib/myql/mydb/ 


然后 ， 在 server2 上 执行 如 下 命令 。 


server2$ gunzip /var/1lib/mysql/mydb/mytable.MYD.gz 


这 大 概 是 最 简单 的 实现 方法 了 ， 但 效率 并 不 高 ， 因 为 涉及 压缩 、 
复制 和 解压 缩 等 串 行 化 的 步骤 。 每 一 个 步骤 都 需要 读 / 写 磁盘 ， 速 度 比 
较 慢 。 上 述 命令 的 真正 操作 依次 是 这 样 的 : 在 serverl1 上 gzip 既 要 读 又 


要 写 ，scp 在 server1 上 读 而 在 server2 上 写 ; gunzip 在 server2 上 既 要 读 又 
$s, 


一 步 到 位 的 方法 


下 面 这 个 方法 更 有 效率 一 些 ， 它 将 压缩 、 复 制 文件 和 在 传输 的 另 
一 端 解压 缩 文件 全 部 放 在 一 个 步骤 里 完成 。 这 一 次 我 们 使 用 SSH， 
SCP 就 是 基于 这 个 安全 协议 的 。 下 面 是 在 server1 上 执行 的 命令 。 


server1$ gzip -c /backup/mydb/mytable.MYD | ssh 
root@server2"gunzip -c - > /var/lib 


>/mysql/mydb/mytable.MYD 


这 个 方法 通常 比 第 一 个 方法 好 ， 因 为 它 极 大 地 降低 了 磁盘 IO: 磁 
盘活 动 被 减少 到 只 要 在 server1 上 读 ， 在 server2 上 写 。 这 也 使 得 磁盘 操 
作 更 加 有 序 。 


也 可 以 使 用 SSH 内 建 的 压缩 来 完成 ， 但 是 我 们 展示 的 是 用 管道 来 
做 压缩 和 解压 缩 ， 这 是 因为 这 样 能 给 予 你 更 大 的 灵活 性 。 例 如 ， 假 如 
你 不 想 在 另 一 端 解压 缩 文 件 ， 融 无 法 使 用 SSH 的 压缩 。 


可 以 通过 调整 一 些 选 项 来 提高 这 个 方法 的 效率 ， 例 如 给 gzip 增 加 
选项 -1， 使 其 压缩 得 更 快 。 这 个 选项 通常 不 会 降低 太 多 压缩 率 ， 但 是 
能 明显 提高 压缩 速度 ， 这 才 是 重点 。 你 也 可 以 使 用 不 同 的 压缩 算法 。 
例如 ， 如 果 想 获得 很 高 的 压缩 率 ， 又 不 在 乎 会 化 费 多 少时 间 ， 那 么 ， 
就 可 以 使 用 bzip2 来 代替 gzip。 如 果 想 要 非常 快 的 压缩 速度 ， 可 以 使 用 


基于 LZO 的 压缩 程序 。 这 样 压缩 后 的 数据 会 比 其 他 方法 的 结果 大 20% 
左右 ， 但 是 压缩 的 速度 约 快 5 倍 。 


避免 加 密 的 系统 开销 


SSH 不 是 跨 网 传输 数据 的 最 快 方法 ， 因 为 它 增 加 了 加 解密 的 系统 
开销 。 如 果 不 需 要 加 密 ， 那 就 使 用 netcat 把 “ 裸 "数据 进行 跨 网 复制 。 可 
以 通过 nc 以 非 交 互 式 操作 方式 调用 这 个 工具 ， 这 正 是 我 们 想 要 的 。 


这 里 有 一 个 例子 。 首 先 ， 在 server2 上 监听 12345 端 口 (任何 闲置 的 
端口 都 可 以 ) 上 的 文件 ， 把 任何 发 送 到 该 端口 的 东西 都 解 讨 缩 到 期 望 
的 数据 文件 里 。 


server2$ nc -l -p 12345 | gunzip -c - > 
/var/1ib/mysql/mydb/mytable.MYD 


然后 在 server1 上 ， 开 启 另 一 个 netcat 实 例 ， 发 送 数据 到 目的 服务 器 
监听 的 端口 上 。-g 选 项 告诉 netcat 当 到 达 输 入 文件 的 末尾 后 就 关闭 连 
接 。 这 会 触发 监听 实例 关闭 接收 的 文件 并 退出 。 


Server1$ gzip -c - /var/lib/mysql/mydb/mytable.MYD | nc -q 


1 server2 12345 


更 容易 的 技术 是 使 用 tar， 这 样 文 件 名 称 也 会 通过 网 络 发 送出 去 ， 
从 而 消除 了 另 一 个 错误 的 来 源 ， 并 会 自动 将 文件 写 到 正确 的 位 置 。z 选 
项 告诉 tar 使 用 gzip 做 压缩 和 解压 缩 。 下 面 是 在 server2 上 执行 的 命令 。 


server2$ nc -1 -p 12345 | tar xvzf - 


以 下 是 在 server1 上 执行 的 命令 。 


Server1$ tar cvzf - /var/lib/mysql/mydb/mytable.MYD | nc -q 


1 server2 12345 


你 可 以 把 这 些 命令 集成 到 一 个 单独 的 脚本 里 ， 这 样 压缩 和 复制 大 
量 的 文件 到 网 络 连接 时 效率 会 比较 高 ， 然 后 在 另 一 端 解 压缩 。 


其 他 选项 


另外 一 个 选择 是 rsync。rsync 非 常 简便 ， 因 为 它 易于 在 源 和 目标 之 
间 做 镜像 ， 并 且 还 可 以 断 点 续 传 。 但 是 ， 当 它 的 二 进 制 差异 算法 无 法 
被 很 好 地 发 挥 时 ， 它 不 太 会 得 到 很 好 应 用 。 在 知道 文件 中 的 大 部 分 内 
容 都 不 需要 传输 的 场景 下 ， 例 如 ， 如 果 要 续 传 一 个 中 途 退 出 的 nc 复制 
的 任务 ， 就 可 以 考虑 用 它 。 


在 还 没有 处 于 危急 关头 时 就 应 该 针对 文件 传输 做 一 些 实验 ， 因 为 
发 现 哪 一 种 方法 最 快 可 能 要 做 许多 试验 和 遇 到 许多 错误 。 哪 一 种 方法 
最 快 取 决 于 你 的 系统 。 其 中 最 大 的 影响 因素 是 服务 器 上 的 磁盘 驱动 
器 、 网 卡 和 CPU 的 数量 ， 以 及 它们 之 间 相 对 的 速度 有 多 快 。 有 个 不 错 
的 方法 是 监控 vmstat -n 5， 看 磁盘 或 CPU 是 否 就 是 速度 的 瓶颈 。 


如 果 有 闲置 的 CPU， 就 可 能 通过 运行 并 行 复制 操作 来 加 快 整个 过 
程 。 相 反 ， 如 果 CPU 已 经 是 瓶颈 ， 而 磁盘 和 网 络 的 承载 能 力 还 比较 充 


裕 ， 那 就 可 以 不 压缩 。 在 导出 和 还 原 时 ， 出 于 速度 的 考虑 ， 并 行 执行 
这 些 操作 往往 是 个 不 错 的 主意 。 此 外 ， 监 控 服 务 器 性 能 ， 看 看 是 否 还 
有 闲置 的 承载 能 力 。 过 度 的 并 行 反 而 会 降低 处 理 速 度 。 


文件 复制 的 基准 测试 


为 了 便于 比较 ， 表 C-1 显 示 的 是 在 局 域 网 里 通过 一 块 标准 的 百 兆 以 
太 网 链 路 复制 一 个 样本 文件 能 达到 的 最 快速 度 。 这 个 文件 未 压缩 时 的 
大 小 是 738MB ， 使 用 gzip 默 认 选 项 压缩 后 是 100MB。 产 和 目的 机 器 都 
有 充足 的 可 用 内 存 、CPU 资 源 和 磁盘 空间 ; 网 络 是 瓶颈 所 在 。 


表 C-1: 跨 网 复制 文件 的 基准 测试 


方法 时 间 (s) 


; 
: 


注意 通过 网 络 发 送 文件 时 压缩 有 多 大 的 帮助 一 一 最 慢 的 三 个 方法 
并 没有 压缩 文件 。 尽 管 这 样 ， 好 处 也 不 一 。 如 果 CPU 和 磁盘 慢 但 有 一 
个 千 兆 以 太 网 连接 ， 那 么 读 取 和 压缩 文件 可 能 是 瓶 贷 ， 不 压缩 反而 更 
快 。 


顺便 提 一 下 ， 使 用 类 似 gzip --fast 的 快速 压缩 比 默 认 压 缩 级 别 要 快 
许多 ， 因 为 后 者 要 使 用 许多 的 CPU 时 间 来 对 文件 多 做 一 点 压缩 。 我 们 
的 测试 基于 默认 压缩 级 别 。 


传输 文件 的 最 后 一 步 是 验证 复制 过 程 没有 损坏 文件 。 可 以 使 用 许 
多 方法 ， 例 如 md5sum， 但 再 次 对 文件 做 完整 扫描 也 相当 昂贵 。 这 也 是 
压缩 很 有 用 的 另外 一 个 原因 : 压缩 本 身 往 往 包括 至 少 一 个 循环 多余 检 
Ml (CRC) ， 而 它 应 该 能 发 现任 何 错误 ， 因 此 不 需要 做 错误 检测 。 


附录 D EXPLAIN 


这 个 附录 显示 了 如 何 调 用 “EXPLAIN” 来 获取 关于 查询 执行 计划 的 
言 息 ， 以 及 如 何 解释 输出 。EXPLAIN 命 令 是 查看 查询 优化 器 如 何 决 定 
执行 查询 的 主要 方法 。 这 个 功能 有 局 限 性 ， 并 不 总 会 说 出 真相 ， 但 它 
的 输出 是 可 以 获取 的 最 好 信息 ， 值 得 花 时 间 了 解 ， 因 为 可 以 学 习 到 查 
询 是 如 何 执行 的 。 学 会 解释 EXPLAIN 将 帮助 你 了 解 MySQL 优 化 器 是 
如 何 工作 的 。 


调用 EXPLAIN 


要 使 用 EXPLAIN ， 只 需 在 查询 中 的 SELECT 关键 字 之 前 增加 
EXPLAIN 这 个 词 。MySQL 会 在 查询 上 设置 一 个 标记 。 当 执行 查询 
时 ， 这 个 标记 会 使 其 返回 关于 在 执行 计划 中 每 一 步 的 信息 ， 而 不 是 执 
行 它 。 它 会 返回 一 行 或 多 行 信 息 ， 显 示 出 执行 计划 中 的 每 一 部 分 和 执 
行 的 次 序 。 


下 面 是 一 个 可 能 的 最 简单 的 EXPLAIN 结 果 。 


mysql> EXPLAIN SELECT 1\G 


RRO TOR IO ITO TOR II TO TOR I KR IK 1. 
ere Te ee ee Te ee ee eee ee eT 
id: 1 
select_type: SIMPLE 
table: NULL 
type: NULL 


possible_keys: NULL 
key: NULL 

key_len: NULL 

ref: NULL 

rows: NULL 


Extra: No tables used 


在 查询 中 每 个 表 在 输出 中 只 有 一 行 。 如 果 碍 询 是 两 个 表 的 联接 ， 


那么 输出 中 将 有 两 行 。 别 名 表单 算 为 一 个 表 ， 因 此 ， 如 果 把 一 个 表 与 
自己 联接 ， 输 出 中 也 会 有 两 行 。“ 表 ”的 意义 在 这 里 相当 广 : 可 以 是 一 
个 子 查询 ， 一 个 UNION 结 果 ， 等 等 。 稍 后 会 看 到 为 什么 是 这 样 。 
EXPLAIN 有 两 个 主要 的 变种 。 


。 EXPLAIN EXTENDED 看 起 来 和 正常 的 EXPLAIN 的 行为 一 样 ， 但 


误 。 


它 会 告诉 服务 器 “逆向 编译 ”执行 计划 为 一 个 SELECT 语 句 。 可 以 
通过 紧 接 其 后 运行 SHOW WARNINGS 看 到 这 个 生成 的 语句 。 这 个 
语句 直接 来 自 执行 计划 ， 而 不 是 原 SQL 语 句 ， 到 这 点 上 已 经 变 
一 个 数据 结构 。 在 大 部 分 场景 下 它 都 与 原 语句 不 相同 。 你 可 以 检 
测 查询 优化 器 到 底 是 如 何 转 化 语句 的 。EXPLAIN EXTENDED 在 
MySQL 5.0 和 更 新 版 本 中 可 用 ， 在 MySQL 5.1 ( 稍 后 会 做 更 多 讨 
ie) 额外 增加 了 一 个 filtered 列 。 

EXPLAIN PARTITIONS 会 显示 查询 将 访问 的 分 区 ， 如 果 查 询 是 基 
于 分 区 表 的 话 。 它 只 在 MySQL 5.1 和 更 新 版 本 中 存在 。 


认为 增加 EXPLAIN 时 MySQL 不 会 执行 查询 ， 这 是 一 个 常见 的 错 
事实 上 ， 如 果 查 询 在 FROM 子 句 中 包括 子 查询 ， 那 么 MySQL 实 际 


上 会 执行 子 查 询 ， 将 其 结果 放 在 一 个 临时 表 中 ， 然 后 完成 外 层 查 询 优 


化 。 


它 必 须 在 可 以 完成 外 层 查 询 优 化 之 前 处 理 所 有 类 似 的 子 查询 ， 这 


对 于 EXPLAIN 来 说 是 必须 要 做 的 必 。 这 意味 着 如 果 语 句 包含 开销 较 大 
的 子 查询 或 使 用 临时 表 算法 的 视图 ， 实 际 上 会 给 服务 器 带 来 大 量 工 
作 。 


要 意识 到 EXPLAIN 只 是 个 近似 结果 ， 别 无 其 他 。 有 时 候 它 是 一 
很 好 的 近似 ， 但 在 其 他 时 候 ， 可 能 与 真相 相差 甚 远 。 以 下 是 一 些 相关 
的 限制 。 


。EXPLAIN 根 本 不 会 告诉 你 触发 器 、 存 储 过 程 或 UDF 会 如 何 影响 查 
询 。 

它 并 不 支持 存储 过 程 ， 尽 管 可 以 手动 抽取 查询 并 单独 地 对 其 进行 
EXPLAIN 操 作 。 

它 并 不 会 告诉 你 MySQL 在 查询 执行 中 所 做 的 特定 优化 。 

它 并 不 会 显示 关于 查询 的 执行 计划 的 所 有 信息 (MySQL 开 发 者 会 
尽 可 能 增加 更 多 信息 ) o 

它 并 不 区 分 具有 相同 名 字 的 事物 。 例 如 ， 它 对 内 存 排序 和 临时 文 
件 都 使 用 “filesort*， 并 且 对 于 磁盘 上 和 内 存 中 的 临时 表 都 显示 
“Using temporary” 

可 能 会 误导 。 例 如 ， 它 会 对 一 个 有 着 很 小 LIMIT 的 查询 显示 全 索 
引 扫描 。 (MySQL 5.1 的 EXPLAIN 关 于 检查 的 行 数 会 显示 更 精确 
的 信息 ， 但 早期 版 本 并 不 考虑 LIMIT。 ) 


重 写 非 SELECT 查询 


MySQL EXPLAIN 只 能 解释 SELECT 查询 ， 并 不 会 对 存储 程序 调用 
和 INSERT、UPDAIE、DELETE 或 其 他 语句 做 解释 。 然 而 ， 你 可 以 重 
写 某 些 非 SELECT 查询 以 利用 EXPLAIN。 为 了 达到 这 个 目的 ， 只 需要 


将 该 语句 转化 成 一 个 等 价 的 访问 所 有 相同 列 的 SELECT。 任 何 提 及 的 
列 都 必须 在 SELECT 列表 ， 天 联 子 句 ， 或 者 WHERE 子 句 中 。 


例如 ， 假 如 你 想 重 写 下 面 的 UPDATE 语句 以 使 其 可 以 利用 
EXPLAIN。 


UPDATE sakila.actor 
INNER JOIN sakila.film_actor USING (actor_id) 


SET actor.last_update=film_actor.last_update; 


下 面 的 EXPLAIN 语 句 并 不 等 价 于 上 面 的 UPDATE， 因 为 它 并 不 要 
求 服 务 器 从 任何 一 个 表 上 获取 last_update 列 。 


mysql> EXPLAIN SELECT film_actor.actor_id 
-> FROM sakila.actor 


-> INNER JOIN sakila.film_actor USING (actor_id)\G 


ROTOR IO IO TOR IOI K TOR KK k IK 1. row 
ROR TOR IO IO TOR IO ITO TOR RK IK 
id: 1 
select_type: SIMPLE 
table: actor 
type: index 
possible_keys: PRIMARY 
key: PRIMARY 
key_len: 2 


ref: NULL 


rows: 200 


Extra: Using index 


ORO TOR IO OR TOR IO OR TOR IO RK I 2. row 
ere Te ee eee ee ee eee ee eT 
id: 1 
select_type: SIMPLE 
table: film_actor 
type: ref 
possible_keys: PRIMARY 
key: PRIMARY 
key_len: 2 
ref: sakila.actor.actor_id 
rows: 13 


Extra: Using index 


这 个 差别 非常 重要 。 例 如 ， 输 出 结果 显示 MySQL 将 使 用 履 盖 索 
引 ， 但 是 ， 当 检索 并 更 新 last_updated 列 时 ， 就 无 法 使 用 覆盖 索引 了 。 
下 面 这 种 改写 法 就 更 接近 原来 的 语句 : 


mysql> EXPLAIN SELECT film_actor.last_update, 
actor.last_update 
-> FROM sakila.actor 


-> INNER JOIN sakila.film_actor USING (actor_id)\G 


类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 1 row 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 


id: 1 


select_type: 
table: 

type: 
possible_keys: 
key: 

key_len: 

ref: 

rows: 


Extra: 


SIMPLE 
actor 
ALL 
PRIMARY 
NULL 
NULL 
NULL 
200 


火炎 类 大火 大 大 大 大 大 大 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 


炎炎 炎炎 火炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 类 


select_type: 
table: 

type: 
possible_keys: 
Key : 

key_len: 

ref: 

rows: 


Extra: 


像 这 样 重 写 查 
BOERS. O 


显示 计划 时 ， 对 于 写 碍 


SIMPLE 

film_actor 

ref 

PRIMARY 

PRIMARY 

2 
sakila.actor.actor_id 


13 


查询 并 不 非常 科学 ， 但 对 帮助 理解 查询 是 


查询 并 没有 “等 价 ” 的 读 碍 询 ， 理 解 这 一 


row 


怎么 做 的 经 


点 非 


党 重要 。 一 个 SELECT 查 询 只 需要 找到 数据 的 一 份 副 本 并 返回 。 而 任 


何 修改 数据 的 查询 必须 在 所 有 索引 上 查找 并 修改 其 所 有 副本 。 这 兹 单 
比 看 起 来 等 价 的 SELECT 查询 的 消耗 要 高 得 多 。 


EXPLAIN 中 的 列 


EXPLAIN 的 输出 总 是 有 相同 的 列 (只 有 EXPLAIN EXTENDED 在 
MySQL 5.1 中 增加 了 一 个 filtered 列 ，EXPLAIN PARTITIONS 增 加 了 一 
个 Partitions 列 ) 。 可 变 的 是 行 数 及 内 容 。 然 而 ， 为 了 保持 我 们 的 例子 
简洁 明了 ， 我 们 在 本 附录 中 不 总 是 显示 所 有 的 列 。 


在 接 下 来 的 小 节 中 ， 我 们 将 展示 在 EXPLAIN 结 果 中 每 一 列 的 意 
义 。 记 住 ， 输 出 中 的 行 以 MySQL 实 际 执 行 的 查询 部 分 的 顺序 出 现 ， 而 
这 个 顺序 不 总 是 与 其 在 原始 SQL 中 的 相 一 致 。 


id 列 | 


这 一 列 总 是 包含 一 个 编号 ， 标 识 SELECT 所 属 的 行 。 如 果 在 语句 
当中 没有 子 查询 或 联合 ， 那 么 只 会 有 唯一 的 SELECT ， 于 是 每 一 行 在 
这 个 列 中 都 将 显示 一 个 1。 人 否则， 内 层 的 SELECT 语句 一 般 会 顺序 编 
号 ， 对 应 于 其 在 原始 语句 中 的 位 置 。 


MySQL 将 SELECT 碍 询 分 为 简单 和 复杂 类 型 ， 复 杂 类 型 可 分 成 三 
A: 简单 子 查询 、 所 谓 的 派生 表 (在 FROM 子 句 中 的 子 查询 ) ©, 
以 及 UNION 查 询 。 下 面 是 一 个 简单 的 子 查询 。 


megi EXPLAIN aiai — 1 FROM sakila.actor LIMIT 1) FROM sakila. film; 


+----+-------------+------- +。 

| id | select type | table 
+----+-------------+------- +. 

| 1 | PRIMARY | film |. 

| 2 | SUBQUERY | actor 
+----+------------- +------- tees 


FROM 子 句 中 的 子 查询 和 联合 给 id 列 增加 了 更 多 复杂 性 。 下 面 是 
一 个 FROM 子 句 中 的 基本 子 查询 。 


EXPLAIN film_id ng ee film id FROM sakila.film) AS der; 


| 2 | PRIMARY | <derived2> |... 
| 2 | DERIVED | film [本 
+----+------------- +------------ coe 


如 你 所 知 ， 这 个 查询 执行 时 有 一 个 匿名 临时 表 。MySQL 内 部 通过 


别名 (der) 在 外 层 查询 中 引用 这 个 临时 表 ， 在 更 复杂 的 查询 中 可 以 看 
至 jref 列 。 


最 后 ， 下 面 是 一 个 UNION 查 询 。 


mysql> PEEN SELECT 1 UNION ALL SELECT 1; 


a 
| ad | select type | table | ees 
+------+--------------+------------ Pose 
|å | PRIMARY | NULL leas 
| 2 | UNION | NULL = 
| NULL | UNION RESULT | <union1,2> |... 
De a SS (aS en Pers 


注意 UNION 结 果 输 出 中 的 额外 行 。UNION 结 果 总 是 放 在 一 个 匿名 
临时 表 中 ， 之 后 MySQL 将 结果 读 取 到 临时 表 外 。 临 时 表 并 不 在 原 SQL 
中 出 现 ， 因 此 它 的 id 列 是 NULL。 与 之 前 的 例子 相 比 (演示 子 查询 的 那 
个 FROM 子 句 中 ) ， 从 这 个 查询 产生 的 临时 表 在 结果 中 出 现在 最 后 一 
行 ， 而 不 是 第 一 行 。 


前 为 止 这 些 都 非常 直截了当 ， 但 这 三 类 语句 的 混合 则 会 使 输 
出 变 得 非常 复杂 ， 我 们 稍 后 就 会 看 到 。 


select_type 列 


这 一 列 显 示 了 对 应 行 是 简单 还 是 复杂 SELECT (如 果 是 后 者 ， 那 
么 是 三 种 复杂 类 型 中 的 哪 一 种 ) 。SIMPLE 值 意味 着 查询 不 包括 子 查 
询 和 UNION。 如 果 查 询 有 任何 复杂 的 子 部 分 ， 则 最 外 层 部 分 标记 为 
PRIMARY， 其 他 部 分 标记 如 下 。 


SUBQUERY 


包含 在 SELECT 列表 中 的 子 查询 中 的 SELECT (Haig, A 
在 FROM 子 句 中 ) 标记 为 SUBQUERY。 


DERIVED 


DERIVED 值 用 来 表示 包含 在 FROM 子 句 的 子 查询 中 的 
SELECT，MySQL 会 递归 执行 并 将 结果 放 到 一 个 临时 表 中 。 服 务 
器 内 部 称 其 “派生 表 ”， 因 为 该 临时 表 是 从 子 查询 中 派生 来 的 。 


UNION 


在 UNION 中 的 第 二 个 和 随后 的 SELECT 被 标记 为 UNION。 第 
一 个 SELECT 被 标记 就 好 像 它 以 部 分 外 查询 来 执行 。 这 就 是 之 前 
的 例子 中 在 UNION 中 的 第 一 个 SELECT 显示 为 PRIMARY 的 原因 。 
如 果 UNION 被 FROM 子 句 中 的 子 查询 包含 ， 那 么 它 的 第 一 个 
SELECT 会 被 标记 为 DERIVED。 


UNION RESULT 


用 来 从 UNION 的 匿名 临时 表 检 索 结 果 的 SELECT 被 标记 为 
UNION RESULT。 


除了 这 些 值 ，SUBQUERY 和 UNION 还 可 以 被 标记 为 DEPENDENT 
和 UNCACHEABLE。DEPENDENT 和 意味 着 SELECT 依赖 于 外 层 查 询 中 
发 现 的 数据 ; UNCACHEABLE 意 味 着 SELECT 中 的 某 些 特性 阻止 结果 
被 缓存 于 一 个 Item_cache 中 。 (Item_cache 未 被 文档 记载 ， 它 与 查询 绥 
存 不 是 一 回 事 ， 尽 管 它 可 以 被 一 些 相同 类 型 的 构件 否定 ， 例 如 RAND0() 
RIR ) 


table] 


一 列 显示 了 对 应 行 正在 访问 哪个 表 。 在 通 单 情况 下 ， 它 相当 明 
ie reticent 或 是 该 表 的 别名 (如 果 SQL 中 定义 了 别名 ) o 


可 以 在 这 一 列 中 从 上 往 下 观察 MySQL 的 关联 优化 器 为 查询 选择 的 
关联 顺序 。 例 如 ， 可 以 看 到 在 下 面 的 查询 中 MySQL 选 择 的 关联 顺序 不 
同 于 语句 中 所 指定 的 顺序 。 


mysql> EXPLAIN SELECT film.film_id 
-> FROM sakila. film 
INNER JOIN sakila.film_actor Acre pe ilm_id) 
INNER JOIN sakila.actor T USING(ac id); 


+----+-------------+------------+..。 


ee 
| 1 | SIMPLE tor os 
| 1 | SIMPLE | film_actor |... 
| 1 | SIMPLE | film | ess 


+----+-------------+------------+。.。 


w 
A 


想起 我 们 在 第 6 章 中 展示 的 左 侧 深 度 优先 (left-deep) 树 了 吗 ? 
MySQL 的 查询 执行 计划 总 是 左 侧 深 度 优先 树 。 如 果 把 这 个 计划 放 倒 ， 
就 能 按 顺 序 读 出 叶子 节点 ， 它 们 直接 对 应 于 EXPLAIN 中 的 行 。 之 前 的 
查询 计划 看 起 来 如 图 D-1 所 示 。 


| Join = 
一 | id | select type | table 
a y 
ilm_ac 


R SIMPLE 
SIMPLE 

eS SIMPLE 

> actor | 1 a 


spe 


H p 


m 


图 D-1: 查询 执行 计划 与 EXPLAIN 中 的 行 相 对 应 的 方式 
派生 表 和 联合 


当 FROM 子 句 中 有 子 查询 或 有 UNION 时 ，table 列 会 变 得 复杂 得 
多 。 在 这 些 场景 下 ， 确 实 没 有 一 个 “ 表 ” 可 以 参考 到 ， 因 为 MySQL 创建 
的 匿名 临时 表 仅 在 查询 执行 过 程 中 存在 。 


当 在 FROM 子 句 中 有 子 查询 时 ，table 列 是 <derivedN> 的 形式 ， 其 
中 N 是 子 查询 的 id。 这 总 是 “向 前 引用 一 -一 换言之 ，N 指 向 EXPLAIN 输 
出 中 后 面 的 一 行 。 


当 有 UNION 时 ，UNION RESULT 的 table 列 包含 一 个 参与 UNION 
的 id 列表 。 这 总 是 “向 后 引用 ”， 因 为 UNION RESULT 出 现在 UNION 中 
所 有 参与 行 之 后 。 如 果 在 列表 中 有 超过 20 个 id，table 列 可 能 被 截断 以 
防止 太 长 ， 此 时 不 可 能 看 到 所 有 的 值 。 幸 运 的 是 ， 仍 然 可 以 推测 包括 


哪些 行 ， 因 为 你 可 以 看 到 第 一 行 的 id。 在 这 一 行 和 UNION RESULTZ 
间 出 现 的 一 切 都 会 以 某 种 方式 被 包含 。 


一 个 复杂 SELECT 类 型 的 例子 


下 面 是 一 个 无 意义 的 查询 ， 我 们 这 里 把 它 用 作 某 种 复杂 SELECT 
类 型 的 紧凑 示例 。 


1 EXPLAIN 
2 SELECT actor_id, 
3 (SELECT 1 FROM sakila.film_actor WHERE 

film_actor.actor_id = 

4 der 1.actor id LIMIT 1) 

5 FROM ( 

6 SELECT actor_id 
FROM sakila.actor LIMIT 5 


) AS der_ 1 


oO oo N 


UNION ALL 

10 SELECT film_id, 

11 (SELECT @vari FROM sakila.rental LIMIT 1) 
12 FROM ( 

13 SELECT film_id, 

14 (SELECT 1 FROM sakila.store LIMIT 1) 

15 FROM sakila.film LIMIT 5 


16 ) AS der_2; 


LIMIT 子 句 只 是 为 了 方便 起 见 ， 以 防 你 打算 不 以 EXPLAIN 方 式 执 
行 来 看 结果 。 下 面 是 EXPLAIN 的 结果 。 


+------+----------------------+------------+,。。 


+------+----------------------+------------ Sia 
PRIMARY <derived3> |... 
DERIVED actor EA 
DEPENDENT SUBQUERY film_actor |... 
UNION <derived6> |... 
DERIVED film 
SUBQUERY store 
UNCACHEABLE SUBQUERY | rental à 
UNION RESULT <union1,4> |... 


ee ae 


CUNDANWR 


= 
= 
— 


我 们 特意 让 每 个 查询 部 分 访问 不 同 的 表 ， 以 便 可 以 弄 清 问题 所 
在 ， 但 仍然 难以 解决 ! 从 最 上 面 开 始 看 。 


第 1 行 向 前 引用 了 der_ 1， 这 个 查询 被 标记 为 <derived3>。 在 原 SQL 
中 是 第 2 行 。 想 了 解 输出 中 哪些 行 引 用 了 <derived3> 中 的 SELECT 
语句 ， 往 下 看 .……… 
ee. 第 2 行 ， 它 的 id 是 3。 因 为 它 是 查询 中 第 3 个 SELECT 的 一 部 
分 ， 归 为 DERIVED 类 型 是 因为 它 众 套 在 FROM 子 句 中 的 子 查询 内 
部 。 在 原 SQL 中 为 第 6 一 7 行 。 
。 第 3 行 的 id 为 2。 在 原 SQL 中 为 第 3 行 。 注 意 ， 它 在 具有 更 高 id 的 行 
后 面 ， 暗 示 后 面 骨 执行， 这 是 合理 的 。 它 被 归 为 DEPENDENT 
SUBQUERY， 意 味 着 其 结果 依赖 于 外 层 查 询 ( 亦 即 某 个 相关 子 查 
i) 。 本 例 中 的 外 查询 是 从 第 2 行 开始 ， 从 der_1 中 检索 数据 的 
SELECT。 
第 4 行 被 归 为 UNION ， 意 味 着 它 是 UNION 中 的 第 2 个 或 之 后 的 
SELECT。 它 的 表 为 <derived6>， 意 味 着 是 从 子 句 FROM 的 子 查 询 
中 检索 数据 并 附加 到 UNION 的 临时 表 。 像 之 前 一 样 ， 要 找到 显示 
这 个 子 查询 的 查询 计划 的 EXPLAIN 行 ， 必 须 往 下 看 。 


第 5 行 是 在 原 SQL 中 第 13、14 和 15 行 定义 的 der 2 子 查询 ， 
EXPLAIN 称 其 为 <derived6>。 

第 6 行 是 <derived6> 的 SELECT 列表 中 的 一 个 普通 子 查询 ， 它 的 id 
为 7， 这 非常 重要 .……. 

tees 因为 它 比 5 大 ， 而 5 是 第 7 行 的 id。 为 什么 重要 ? 因为 它 显示 了 
<derived6> 子 查询 的 边界 。 当 EXPLAIN 输出 SELECT 类 型 为 
DERIVED 的 一 行 时 ， 表 示 一 个 “ 角 套 沁 围 > 开始。 如 果 后 续 行 的 id 
更 小 (本 例 中 ，5 小 于 6) ， 意 味 着 骨 套 范围 已 经 被 关闭 。 这 就 让 
我 们 知道 第 7 行 是 从 <derived6> 中 检索 数据 的 SELECT 列表 中 的 部 
分 一 例如， 第 4 行 的 SELECT 列表 的 一 部 分 ( 原 SQL 中 第 11 
行 ) 。 这 个 例子 相当 容易 理解 ， 不 需要 知道 储 套 学 围 的 意义 和 规 
则 ， 当 然 有 时 候 并 不 是 这 么 容易 。 关 于 输出 中 的 这 一 行 另 外 一 个 
要 注意 的 是 ， 因 为 有 用 户 变 量 ， 它 被 列 为 UNCACHEABLE 
SUBQUERY。 

最 后 一 行 是 UNION RESULT。 它 代表 从 UNION 的 临时 表 中 读 取 行 
的 阶段 。 你 可 以 从 这 行 开 始 反 过 来 向 后 ， 如 果 你 愿意 的 话 。 它 会 
返回 id 是 1 和 4 的 行 结果 ， 它 们 分 别 引 用 了 <derived3> 和 


<derived6>。 


如 你 所 见 ， 这 些 复 杂 的 SELECT 类 型 的 组 合 会 使 EXPLAIN 的 输出 
相当 难 懂 。 理 解 规 则 会 使 其 简单 些 ， 但 仍然 需要 多 实践 。 


阅读 EXPLAIN 的 输出 经 单 需要 在 列表 中 跳 来 跳 去 。 例 如 ， 再 查看 
第 一 行 输出 。 仅 仪 果 着 看 ， 是 无 法 知道 它 是 UNION 的 一 部 分 的 。 只 有 
看 到 最 后 一 行 你 才 会 明日 过 来 。 


type 列 


MySQL 用 户 手册 上 说 这 一 列 显示 了 “关联 类 型 "”， 但 我 们 认为 更 准 
确 的 说 法 是 访问 类 型 一 一 换言之 就 是 MySQL 决 定 如 何 查找 表 中 的 行 。 
下 面 是 最 重要 的 访问 方法 ， 依 次 从 最 差 到 最 优 。 


ALL 


人 们 所 称 的 全 表 扫 描 ， 通 常 意味 着 MySQL 必 须 扫 描 整 张 表 ， 
从 头 到 尾 ， 去 找到 需要 的 行 。 (这 里 也 有 个 例外 ， 例 如 在 查询 里 
使 用 了 LIMIT， 或 者 在 Extra 列 中 显示 “Using distinct/not exists”。 ) 


index 


这 个 跟 全 表 扫 描 一 样 ， 只 是 MySQL 扫 描 表 时 按 索 引 次 序 进行 
而 不 是 行 。 它 的 主要 优点 是 避免 了 排序 ， 最 大 的 缺点 是 要 承担 按 
索引 次 序 读 取 整个 表 的 开销 。 这 通常 意味 着 若是 按 随机 次 序 访问 
行 ， 开 销 将 会 非 党 大 。 


如 果 在 Extra 列 中 看 到 “Using index”， 说 明 MySQL 正 在 使 用 覆 
盖 索 引 ， 它 只 扫描 索引 的 数据 ， 而 不 是 按 索 引 次 序 的 每 一 行 。 它 
比 按 索引 次 序 全 表 扫 描 的 开销 要 少 很 多 。 


range 


范围 扫描 就 是 一 个 有 限制 的 索引 扫描 ， 它 开始 于 索引 里 的 某 
一 点 ， 返 回 匹 配 这 个 值 域 的 行 。 这 比 全 索引 扫描 好 一 些 ， 因 为 它 
用 不 着 遍历 全 部 索引 。 显 而 易 见 的 范围 扫描 是 带 有 BETWEEN 或 
在 WHERE 子 句 里 市 有 > 的 查询 。 


ref 


当 MySQL 使 用 索引 去 查找 一 系列 值 时 ， 例 如 INO 和 OR 列表 ， 
也 会 显示 为 范围 扫描 。 然 而 ， 这 两 者 其 实 是 相当 不 同 的 访问 类 
型 ， 在 性 能 上 有 重要 的 差异 。 更 多 信息 可 以 查看 第 5 章 的 文章 “ 什 
LELER” 


kHH ARR KE, 


这 是 一 种 索引 访问 《有 时 也 叫做 索引 查找 ) ， 它 返回 所 有 匹 
配 某 个 单个 值 的 行 。 然 而 ， 它 可 能 会 找到 多 个 符合 条 件 的 行 ， 因 
此 ， 它 是 查找 和 扫描 的 混合 体 。 此 类 索引 访问 只 有 当 使 用 非 唯一 
性 索引 或 者 唯一 性 索引 的 非 唯一 性 前 缀 时 才 会 发 生 。 把 它 叫 做 ref 
是 因为 索引 要 跟 某 个 参考 值 相 比较 。 这 个 参考 值 或 者 是 一 个 常 
数 ， 或 者 是 来 自 多 表 查 询 前 一 个 表 里 的 结果 值 。 


ref_or_null 是 ref 之 上 的 一 个 变 体 ， 它 意味 着 MySQL 必 须 在 初 
次 查找 的 结果 里 进行 第 二 次 查找 以 找 出 NULL 条 目 。 


eq_ref 


使 用 这 种 索引 查找 ，MySQL 知 道 最 多 只 返回 一 条 符合 条 件 的 
记录 。 这 种 访问 方法 可 以 在 MySQL 使 用 主键 或 者 唯一 性 索引 查找 
时 看 到 ， 它 会 将 它们 与 某 个 参考 值 做 比较 。MySQL 对 于 这 类 访问 
类 型 的 优化 做 得 非常 好 ， 因 为 它 知 道 无 须 估 计 匹 配 行 的 范围 或 在 
找到 匹配 行 后 再 继续 查找 。 


const, system 


当 MySQL 能 对 查询 的 某 部 分 进行 优化 并 将 其 转换 成 一 个 常量 
时 ， 它 就 会 使 用 这 些 访问 类 型 。 举 例 来 说 ， 如 果 你 通过 将 某 一 行 
的 主键 放 入 WHERE 子 句 里 的 方式 来 选取 此 行 的 主键 ，MySQL 就 
能 把 这 个 查询 转换 为 一 个 常量 。 然 后 就 可 以 高 效 地 将 表 从 联接 执 
行 中 移 除 。 


NULL 


这 种 访问 方式 意味 着 MySQL 能 在 优化 阶段 分 解 查 询 语句 ， 在 
执行 阶段 甚至 用 不 着 再 访问 表 或 者 索引 。 例 如 ， 从 一 个 索引 列 里 
选取 最 小 值 可 以 通过 单独 查找 索引 来 完成 ， 不 需要 在 执行 时 访问 
表 。 


possible_keys] 


这 一 列 显示 了 查询 可 以 使 用 哪些 索引 ， 这 是 基于 查询 访问 的 列 和 
使 用 的 比较 操作 符 来 判断 的 。 这 个 列表 是 在 优化 过 程 的 早期 创建 的 ， 
因此 有 些 罗列 出 来 的 索引 可 能 对 于 后 续 优 化 过 程 是 没 用 的 。 


key 列 


这 一 列 显示 了 MySQL 决定 采用 哪个 索引 来 优化 对 该 表 的 访问 。 如 
果 该 索引 没有 出 现在 possible_keys 列 中 ， 那 么 MySQL 选 用 它 是 出 于 另 
外 的 原因 一 一 例如 ， 它 可 能 选择 了 一 个 覆盖 索引 ， 哪 怕 没 有 WHERE 
子 句 。 


换 句 话说 ，possible_keys 揭 示 了 哪 一 个 索引 能 有 助 于 高 效 地 行 碍 
找 ， 而 key 显 示 的 是 优化 采用 哪 一 个 索引 可 以 最 小 化 查询 成 本 (更 多 详 
情 请 参阅 第 6 章 中 关于 优化 的 成 本 度量 值 ) 。 下 面 就 是 一 个 例子 。 


id: 1 
select_type: SIMPLE 
table: film_actor 
type: index 
possible_keys: NULL 
key: idx_fk_film_id 
key_len: 2 
ref: NULL 
rows: 5143 


Extra: Using index 


key_len] 


该 列 显 示 了 MySQL 在 索引 里 使 用 的 字 节 数 。 如 果 MySQL 正 在 使 
用 的 只 是 索引 里 的 某 些 列 ， 那 么 就 可 以 用 这 个 值 来 算出 具体 是 哪些 
列 。 要 记 住 ，MySQL 5.5 及 之 前 版 本 只 能 使 用 索引 的 最 左前 级。 举例 
来 说 ，sakila.film_actor 的 主键 是 两 个 SMALLINT 列 ， 并 且 每 个 
SMALLINT 列 是 两 字 节 ， 那 么 索引 中 的 每 项 是 4 字 节 。 以 下 就 是 一 个 
查询 的 示例 : 


sn B — SELECT anaes id, film_id FROM sakila.film_actor WHERE actor_id=4; 
十- +--------- +. 
..| type | possible keys | key | key_len I 
二 -+ +--------- ae 
val ref | PRIMARY | PRIMARY | 2 
...+------ +--------------- +--------- + 


基于 结果 中 的 key_len 列 ， 可 以 推断 出 查询 使 用 唯一 的 首 列 一 一 
actor_id 列 ， 来 执行 索引 查找 。 当 我 们 计算 列 的 使 用 情况 时 ， 务 必 把 字 
符 列 中 的 字符 集 也 考虑 进去 。 


mysql> CREATE TABLE t ( 
-> a char(3) NOT NULL, 
b int(11) NOT NULL, 


-> 
> c char(1) NOT NULL， 


-> PRIMARY KEY (a,b,c) 
-> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 ; 
mysql> INSERT INTO t(a, b, c) 
-> SELECT DISTINCT LEFT(TABLE_SCHEMA, 3), ORD(TABLE NAME), 
“> LEFT(COLUMN_NAME, 1) 
-> FROM TNFORMATION SEHENASCOLUMNS: 
van arin SELECT a ir t ene a='sak' A b = 112; 


| ref | PRIMARY | PRIMARY | 13 人 
RR 二 -= 于 于 -= Pose 


这 个 查询 中 平均 长 度 为 13 字 节 ， 即 为 a 列 和 b 列 的 总 长 度 。a 列 是 3 
个 字符 ，utf8 下 每 一 个 最 多 为 3 字 节 ， 而 b 列 是 一 个 4 字 节 整 型 。 


MySQL 并 不 总 显示 一 个 索引 真正 使 用 了 多 少 。 例 如 ， 如 果 对 一 个 
前 缀 模式 匹配 执行 LIKE 查 询 ， 它 会 显示 列 的 完全 宽度 正在 被 使 用 。 


key_len 列 显示 了 在 索引 字段 中 可 能 的 最 大 长 度 ， 而 不 是 表 中 数据 
RN 。 在 前 面 例子 中 MySQL 总 是 显示 13 字 节 ， 即 使 a 列 
恰巧 只 包含 一 个 字符 长 度 。 换 言 之 ， key_len 通 过 查找 表 的 定义 而 被 计 
算出 ， a 
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这 一 列 显 示 了 之 前 的 表 在 key 列 记录 的 索引 中 查找 值 所 用 的 列 或 党 
量 。 下 面 是 一 个 展示 关联 条 件 和 别名 组 合 的 例子 。 注 意 ，ref 列 反映 了 
在 查询 文本 中 film 表 是 如 何以 f 为 别名 的 。 


mysql> EXPLAIN 
-> SELECT STRAIGHT JOIN f.film id 
-> FROM sakila.film AS f 
-> INNER JOIN sakila.film_actor AS fa 
ON f.film id=fa.film id AND fa.actor_id = 1 
-> INNER JOIN sakila.actor AS a USING(actor id); 


ED ES a a a Sees SRS Stas 


| table |...| key | key len | ref [sss 
...+------- +...+-------------------- +--------- +------------------------ +... 
zela |... | PRIMARY | 2 | const [eves 
seal f |...| idx fk language id | 1 | NULL | ieee 
ssal Ta |... | PRIMARY | 4 | const, sakila.f.film_id |... 

.+------- +...+-------------------- +--------- +------------------------ 十 
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这 一 列 是 MySQL 估 计 为 了 找到 所 需 的 行 而 要 读 取 的 行 效 。 这 个 效 
字 是 内 亥 循环 关联 计划 里 的 循环 数目 。 也 就 是 说 它 不 是 MySQL 认 为 它 
最 终 要 从 表 里 读 取 出 来 的 行 数 ， 而 是 MySQL 为 了 找到 符合 查询 的 每 一 
点 上 标准 的 那些 行 而 必须 读 取 的 行 的 平均 数 。 (这 个 标准 包括 SQL 里 
给 定 的 条 件 ， 以 及 来 自 联接 次 序 上 前 一 个 表 的 当前 列 。) 


根据 表 的 统计 信息 和 索引 的 选用 情况 ， 这 个 估算 可 能 很 不 精确 。 


在 MySQL 5.0 及 更 早 的 版 本 里 ， 它 也 反映 不 出 LIMIT 子 句 。 举 例 来 
说 ， 下 面 这 个 查询 不 会 真 的 检查 1 022 行 。 


mysql> EXPLAIN SELECT * FROM sakila.film LIMIT 1\G 


rows: 1022 


通过 把 所 有 rows 列 的 值 相 乘 ， 可 以 粗略 地 估算 出 整个 查询 会 检查 
的 行 数 。 例 如 ， 以 下 这 个 查询 大 约会 检查 2 600 行 。 


mysql> EXPLAIN 


-> FROM sakila.film AS f 
> INNER JOIN sakila.film actor AS fa eee ilm id) 
> TAR JOIN sakila.actor AS a USING(actor_ id); 


第 
| rows ja 
PO Fars 
swal 200 I a. 
| se: 
| | cess 


要 记 住 这 个 数字 是 MySQL 认 为 它 要 检查 的 行 数 ， 而 不 是 结果 集 里 
的 行 效 。 同 时 也 要 认识 到 有 很 多 优化 手段 ， 例 如 天 联 缓冲 区 和 缓存 ， 
无 法 影响 到 行 数 的 显示 。MySQL 可 能 不 必 真 的 读 所 有 它 估计 到 的 行 ， 
它 也 不 知道 任何 关于 操作 系统 或 硬件 缓存 的 信息 。 
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一 列 是 在 MySQL 5.1 里 新 加 进去 的 ， 在 使 用 EXPLAIN 
EXTENDED 时 出 现 。 它 显示 的 是 针对 表 里 符合 某 个 条 件 《WHERE 子 
句 或 联接 条 件 ) 的 记录 数 的 百分比 所 做 的 一 个 悲观 估算 。 如 果 你 把 
rows 列 和 这 个 百分比 相 乘 ， 就 能 看 到 MySQL 估 算 它 将 和 查询 计划 里 前 
一 个 表 关 联 的 行 数 。 在 写作 本 书 的 时 候 ， 优 化 器 只 有 在 使 用 ALL、 
index、range 和 index_merge 访 问 方法 时 才 会 用 这 一 估算 。 


为 了 说 明 这 一 列 的 输出 形式 ， 我 们 创建 了 下 面 这 样 一 张 表 。 


CREATE TABLE t1 ( 


id INT NOT NULL AUTO_INCREMENT, 
filler char(200), 
PRIMARY KEY(id) 

) ; 


然后 ， 我 们 往 表 里 插入 1000 行 记录 ， 并 在 filer 列 里 随机 填充 一 些 
文字 。 它 的 用 途 是 防止 MySQL 在 我 们 将 要 运行 的 查询 里 使 用 覆盖 索 
引 。 


mysql> EXPLAIN EXTENDED SELECT * FROM t1 WHERE id < 500\G 


ORO TOR IO IO TOR IOI TO TOR KR KR IK 1. row 
eee Te Te ee Te ee ee ee ee eT 
id: 1 
select_type: SIMPLE 
table: t1 
type: ALL 
possible_keys: PRIMARY 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 1000 
filtered: 49.40 


Extra: Using where 


MySQL 可 以 使 用 范围 访问 从 表 里 获 取 到 所 有 I 了 DD 不 超过 500 的 行 ， 
但 是 ， 它 没 这 么 做 ， 这 是 因为 那样 只 能 去 除 大 约 一 半 的 记录 ， 它 认为 
全 表 扫 描 也 不 是 太 昂 贵 。 因 此 ， 它 使 用 了 全 表 扫 描 和 WHERE 子 句 来 


过 滤 输 出 行 。 它 知道 使 用 WHERE 子 句 可 以 从 结果 里 过 滤 掉 多 少 条 记 
录 ， 因 为 范围 访问 的 成 本 是 可 以 估算 出 来 的 。 这 也 就 是 49.40% 出 现在 
filtered 列 上 的 原因 。 


Extrağl] 


这 一 列 包 含 的 是 不 适合 在 其 他 列 显示 的 额外 信息 。MySQL 用 户 手 
册 里 记录 了 大 多 数 可 以 在 这 里 出 现 的 值 。 其 中 许多 在 本 书 中 已 经 提 到 


We 
常见 的 最 重要 的 值 如 下 。 
“Using index” 


此 值 表 示 MySQL 将 使 用 覆盖 索引 ， 以 避免 访问 表 。 不 要 把 覆 


盖 索 引 和 index 访 问 类 型 弄 混 了 。 
“Using where” 


这 意味 着 MySQL 服 务 器 将 在 存储 引 警 检索 行 后 再 进行 过 滤 。 
许多 WHERE 条 件 里 涉及 索引 中 的 列 ， 当 (并 且 如 果 ) CRRA 
引 时 ， 就 能 被 存储 引擎 检验 ， 因 此 不 是 所 有 带 WHERE 子 句 的 查 
询 都 会 显示 “Using where”。 有 时 “Using where” 的 出 现 就 是 一 个 暗 
T: 查询 可 受益 于 不 同 的 索引 。 


“Using temporary” 


这 意味 着 MySQL 在 对 查询 结果 排序 时 会 使 用 一 个 临时 表 。 


“Using filesort” 


这 意味 着 MySQL 会 对 结果 使 用 一 个 外 部 索引 排序 ， 而 不 是 按 
索引 次 序 从 表 里 读 取 行 。MySQL 有 两 种 文件 排序 算法 ， 你 可 以 在 
第 6 章 读 到 相关 内 容 。 两 种 方式 都 可 以 在 内 存 或 磁盘 上 完成 。 
EXPLAIN 不 会 告诉 你 MySQL 将 使 用 哪 一 种 文件 排序 ， 也 不 会 告 
诉 你 排序 会 在 内 存 里 还 是 磁盘 上 完成 。 


“Range checked for each record (index map: N)” 


这 个 值 意味 着 没有 好 用 的 索引 ， 新 的 索引 将 在 联接 的 每 一 行 
上 重新 估算 。N 是 显示 在 possible_keys 列 中 素 引 的 位 图 ， 并 且 是 元 
余 的 。 


树 形 格式 的 输出 


MySQL 用 户 往往 更 希望 把 EXPLAIN 的 输出 格式 化 成 一 棵 树 ， 更 
加 精确 地 展示 执行 计划 。 实 际 上 ，EXPLAIN 查 看 查询 计划 的 方式 确实 
有 点 笨拙 ， 树 状 结构 也 不 适合 表格 化 的 输出 。 


当 Extra 列 里 有 大 量 的 值 时 ， 缺 点 更 明显 ， 使 用 UNION 也 是 这 样 。 
UNION 跟 MySQL 能 做 的 其 他 类 型 的 联接 不 太一 样 ， 它 不 太 适 合 
EXPLAIN。 


如 果 对 EXPLAIN 的 规则 和 特性 有 充分 的 了 解 ， 使 用 树 形 结构 的 执 
行 计划 也 是 可 行 的 。 但 是 这 有 点 枯燥 ， 最 好 还 是 留 给 自动 化 的 工具 处 
理 。Percona Toolkit 包 含 了 pt-visual-explain， 它 就 是 这 样 一 个 工具 。 


MySQL 5.6 中 的 改进 


MySQL 5.6 中 将 包括 一 个 对 EXPLAIN 的 重要 改进 : 能 对 类 似 
UPDAIE、INSERT 等 的 查询 进行 解释 。 尽 管 可 以 将 DML 语 句 转 化 为 准 
等 价 的 “SELECT” 查 询 并 EXPLAIN， 但 结果 并 不 会 完全 反映 语句 是 如 
何 执行 的 ， 因 而 这 仍然 非常 有 帮助 。 在 开发 使 用 类 似 Percona Toolkit 
的 pt-upgrade 时 曾 尝 试 使 用 过 那个 技术 ， 我 们 不 止 一 次 发 现 ， 在 将 查询 
转化 为 SELECT 时 ， 优 化 器 并 不 能 按 我 们 预期 的 代码 路 径 执 行 。 因 
而 ，EXPLAIN 一 个 查询 而 不 需要 转化 为 SELECT， 对 我 们 理解 执行 过 
程 中 到 底 发 生 什 么 ， 是 非常 有 帮助 的 。 


MySQL 5.6 还 将 包括 对 查询 优化 和 执行 引擎 的 一 系列 改进 ， 人 允许 
匿名 的 临时 表 尽 可 能 晚 地 被 具体 化 ， 而 不 总 是 在 优化 和 执行 使 用 到 此 
临时 表 的 部 分 查询 时 创建 并 填充 它们 。 这 将 允许 MySQL 可 以 直接 解释 
带子 查询 的 查询 语句 ， 而 不 需要 先 实 际 地 执行 子 查询 。 


最 后 ，MySQL 5.6 将 通过 在 服务 器 中 增加 优化 跟踪 功能 的 方式 改 
进 优化 器 的 相关 部 分 。 这 将 允许 用 户 查 看 优化 器 做 出 的 抉择 ， 以 及 和 输 
入 (例如 ， 索 引 的 基数 ) 和 抉择 的 原因 。 这 非常 有 帮助 ， 不 仅仅 对 理 
解 服务 器 选择 的 执行 计划 如 此 ， 对 为 什么 选择 这 个 计划 也 如 此 。 


(1) 这 个 限制 在 MySQL 5.6 中 将 被 取消 。 
(2) MySQL 5.6 将 允许 解释 非 SELECT 查询 。 万 岁 ! 


(3) FROM 子 句 中 的 子 查询 是 派生 表 ” 这 一 表述 是 对 的 ， 但 “派生 表 是 FROM 子 句 中 的 子 查 
询 ” 则 不 对 ， 术 语 “ 派 生 表 ”在 SQL 中 含义 很 宽泛 。 


HRE MAINA 


任何 使 用 锁 来 控制 资源 共享 的 系统 ， 锁 的 竞争 问题 都 不 好 调试 。 
当 我 们 给 某 个 表 增 加 一 列 新 字段 ， 或 者 只 是 进行 查询 ， 就 有 可 能 发 现 
其 他 请 求 锁 住 了 操作 的 表 或 者 行 。 此 时 ， 通 常 你 所 想 做 的 事 就 是 找 出 
查询 阻 绑 的 原因 ， 从 而 知道 该 杀 死 哪个 进程 。 这 个 附录 显示 了 如 何 达 
到 这 两 个 目标 。 


MySQL 服 务 器 本 身 使 用 了 几 种 类 型 的 锁 。 如 果 查 询 正在 等 待 一 个 
服务 器 级 别 的 锁 ， 那 么 可 以 在 SHOW PROCESSLIST 的 输出 中 看 到 蛛 
丝 马 迹 。 除 了 服务 器 级 别 的 锁 ， 任 何 支 持 行 级 别 锁 的 存储 引擎 ， 例 如 
InnoDB， 都 实现 了 自己 的 锁 。 在 MySQL 5.0 和 更 早 版 本 中 ， 服 务 器 层 
无 法 主动 识别 这 些 锁 ， 它 们 往往 对 用 户 和 数据 库 管 理 员 不 可 见 。 在 
MySQL 5.1 和 后 续 版 本 中 可 见 性 有 了 提高 。 


服务 器 级 别 的 锁 等 待 


锁 等 待 可 能 发 生 在 服务 器 级 别 或 存储 引擎 级 别 。 收 (应 用 程序 级 
别 的 锁 可 能 也 是 一 个 问题 ， 但 我 们 在 此 只 关注 MySQL。) 下 面 是 
MySQL 服 务 器 使 用 的 几 种 类 型 的 锁 。 


表 锁 


表 可 以 被 显 式 的 读 锁 和 写 锁 进行 锁定 。 这 些 锁 有 许多 的 变 
种 ， 例 如 本 地 读 锁 。 你 可 以 在 MySQL 手 册 LOCK TABLES 部 分 了 
解 到 这 些 变 种 。 除 了 这 些 显 式 的 锁 外 ， 查 询 过 程 中 还 有 隐 式 的 
锁 。 


全 局 锁 


可 以 通过 FLUSH TABLES WITH READ LOCK 或 设置 
read_only=1 来 获取 单个 全 局 读 锁 。 它 与 任何 表 锁 都 冲突 。 


命名 锁 是 表 锁 的 一 种 ， 服 务 器 在 重 命名 或 删除 一 个 表 时 创 


你 可 以 用 GET_LOCK0 及 其 相关 函数 在 服务 器 级 别 内 锁 住 和 
释放 任意 一 个 字符 串 。 


在 接 下 来 的 章节 中 我 们 将 更 详细 地 查看 每 种 类 型 的 锁 。 


RM 


表 锁 既 可 以 是 显 式 的 也 可 以 是 隐 式 的 。 显 式 的 锁 用 LOCK 
TABLES 创 建 。 例 如 ， 如 果 在 mysql 会 话 中 执行 下 列 命令 ， 将 在 
sakila.filjm 上 获得 一 个 显 式 的 锁 。 


mysql> LOCK TABLES sakila.film READ; 


如 果 和 再 在 另外 一 个 会 话 中 执行 如 下 的 命令 ， 碍 询 会 挂 起 并 且 不 会 
完成 。 


mysql> LOCK TABLES sakila.film WRITE; 


你 可 以 在 第 一 个 连接 中 看 到 等 待 线程 。 


mysql> SHOW PROCESSLIST\G 


火炎 火炎 大 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 


类 类 类 炎炎 炎炎 炎炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 7 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 0 
State: NULL 
Info: SHOW PROCESSLIST 


大 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 11 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 4 
State: Locked 


row 


row 


Info: LOCK TABLES sakila.film WRITE 


2 rows in set (0.01 sec) 


Bl Are EURER AeA Locked, 在 MySQL 服 务 器 代码 中 只 
一 个 线程 会 进入 此 状态 : 当 一 个 线程 持 有 该 锁 后 ， 其 他 线程 只 能 不 1 
尝试 获取 。 因 而 ， 如 果 看 到 这 样 的 信息 ， 你 就 知道 线程 在 等 待 一 
MySQL 服 务 器 中 的 锁 ， 而 不 是 存储 引擎 的 。 


然而 ， 显 式 锁 并 不 是 阻塞 这 样 一 个 操作 的 唯一 类 型 的 锁 。 我 们 前 
面 也 提 到 ， a a E aT ae 
的 查询 可 以 很 容易 地 展示 这 一 点 ， 长 时 间 查 询 可 以 通过 SLEEP() 遂 数 
轻松 创建 。 


mysql> SELECT SLEEP(30) FROM sakila.film LIMIT 1; 


当 这 个 查询 运行 时 ， 如 果 你 再 次 党 试 锁 sakila.film ， 操 作 会 因 隐 式 
锁 而 挂 起 ， 就 如 同 有 显 式 锁 一 样 。 你 会 在 进程 列表 中 看 到 和 之 前 一 样 
的 效果 : 


mysql> SHOW PROCESSLIST\G 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 1. row 
kkkkkkkkkkkkkkkkkkkkkkkkkkk 
Id: 7 
User: baron 
Host: localhost 
db: NULL 


Command: Query 
Time: 12 
State: Sending data 


Info: SELECT SLEEP(30) FROM sakila.film LIMIT 1 


大 类 炎炎 炎炎 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 2 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 11 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: Locked 


Info: LOCK TABLES sakila.film WRITE 


在 本 例 中 ，SELECT 查 询 的 隐 式 读 锁 阻 塞 了 LOCK TABLES 中 所 请 
求 的 显 式 写 锁 。 另 外 ， 隐 式 锁 也 会 相互 阻塞 。 


你 可 能 想 知 道 关 于 隐 式 锁 和 显 式 锁 的 差异 。 从 内 部 来 说 ， 它 们 有 
相同 的 结构 ， 由 相同 的 MySQL 服 务 器 代码 来 控制 。 从 外 部 来 说 ， 你 可 
以 通过 LOCK TABLES 和 UNLOCK TABLES 来 控制 显 式 锁 。 


然而 ， 当 涉及 非 MyISAM 存 储 引 擎 时 ， 它 们 之 间 有 一 个 非常 重要 
的 区 别 。 当 创建 显 式 锁 时 ， 它 会 按 你 的 指令 来 做 ， 但 隐 式 锁 就 比较 隐 
焙 并 “有 魔幻 性 "。 服 务 器 会 在 需要 时 自动 地 创建 和 释放 隐 式 锁 ， 并 将 
它们 传递 给 存储 引擎 。 存 储 引 擎 感知 到 后 ， 可 能 会 < 转换 "这些 锁 。 例 
如 ，InnoDB 有 这 样 的 相关 规则 : 对 一 个 给 定 的 服务 器 级 别 的 表 锁 ， 


InnoDB 应 该 为 其 创建 特定 类 型 的 mnoDB 表 锁 。 这 也 使 得 操作 人 很 难 理 
解 InnoDB 幕 后 到 底 做 了 什么 。 


找 出 谁 持 有 锁 


如 果 你 看 到 许多 的 进程 处 于 Locked 状 态 ， 问 题 可 能 出 在 对 
MyISAM 或 者 其 他 类 似 存储 引擎 的 高 并 发 访问 。 这 会 阻止 你 执行 人 工 
操作 ， 例 如 给 表 增 加 索引 等 。 如 果 一 个 UPDATE 查 询 进入 队列 并 等 待 
MyISAM 的 表 锁 ， 此 时 就 连 SELECT 也 不 会 被 允许 运行 。 (关于 
MySQL 锁 队列 和 优先 级 ， 可 以 在 MySQL 用 户 手 册 中 查 到 更 多 。) 


在 某 些 场景 下 ， 可 以 清楚 地 看 到 几 个 连接 长 时 间 持 有 有 某 个 锁 ， 此 
时 需要 将 它们 杀 死 (或 需要 劝告 用 户 不 要 阻挡 这 些 连 接 的 工作 ! ) 。 
但 是 如 何 找 出 那个 连接 呢 ? 


目前 没有 SQL 命令 可 以 显示 哪个 线程 持 有 阻塞 你 的 查询 的 表 锁 。 
如 果 运 行 SHOW PROCESSLIST， 你 会 看 到 等 待 锁 的 进程 ， 而 不 是 哪 
个 进程 持 有 这 些 锁 。 笠 运 的 是 ， 有 一 个 debug 命 令 可 以 打印 关于 锁 的 信 
息 到 服务 器 的 错误 日 志 中 ， 你 可 以 使 用 mysqladmin 工 具 来 运行 这 个 命 


BD: 
Ne 


$ mysqladmin debug 


在 错误 日 志 的 输出 中 包括 了 许多 的 调试 信息 ， 在 接近 尾部 可 以 看 
到 像 下 面 的 一 些 信息 。 我 们 是 这 样 创建 这 些 输出 的 : 在 一 个 连接 中 锁 
住 表 ， 然 后 在 另外 一 个 连接 中 尝试 再 次 对 它 加 锁 。 


Thread database.table_name Locked/Waiting Lock_type 

7 sakila.film Locked - read Read lock 
without concurrent inserts 

8 sakila.film Waiting - write Highest priority 


write lock 


可 以 看 到 线程 8 正在 等 待 线程 7 持 有 的 锁 。 
全 局 读 锁 
MySQL 服 务 器 还 实现 了 一 个 全 局 读 锁 ， 可 以 如 下 获取 该 锁 。 


mysql> FLUSH TABLES WITH READ LOCK; 


如 果 此 时 在 另外 一 个 会 话 中 党 试 再 锁 这 个 表 ， 结 果 会 像 之 前 一 样 
挂 起 。 


mysql> LOCK TABLES sakila.film WRITE 
如 何 判断 这 个 查询 正在 等 待 全 局 读 锁 而 不 是 一 个 表 级 别 的 锁 ? 请 


看 SHOW PROCESSLIST 的 输出 。 


mysql> SHOW PROCESSLIST\G 


大 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 2 row 


大 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 22 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 9 
State: Waiting for release of readlock 


Info: LOCK TABLES sakila.film WRITE 


注意 ， 查 询 的 状态 是 waiting for release of readlock。 这 就 是 说 查询 
正在 等 待 一 个 全 局 读 锁 而 不 是 表 级 别 锁 。 


MySQL 没 有 提供 查 出 谁 持 有 全 局 读 锁 的 方法 。 


命名 锁 


命名 锁 是 一 种 表 锁 : 服务 器 在 重 命 名 或 删除 一 个 表 时 创建 。 命 名 
锁 与 普通 的 表 锁 相 冲 突 ， 无 论 是 隐 式 的 还 是 显 式 的 。 例 如 ， 如 果 和 之 
51 —#4(@FALOCK TABLES, 然后 在 另外 一 个 会 话 中 党 试 对 此 表 重 命 
名 ， 查 询 会 挂 起 ， 但 这 次 不 是 处 于 Locked 状 态 。 


mysql> RENAME TABLE sakila.film2 TO sakila. film; 


和 前 面 一 样 ， 从 进程 列表 找到 获得 锁 的 进程 ， 其 状态 是 Waiting 
for table。 


mysql> SHOW PROCESSLIST\G 


火炎 大大 大大 大 大 大 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 2 row 


类 火炎 火炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


Id: 27 
User: baron 
Host: localhost 
db: NULL 
Command: Query 
Time: 3 
State: Waiting for table 


Info: rename table sakila.film to sakila.film 2 


也 可 以 在 SHOW OPEN TABLES 输 出 中 看 到 命名 锁 的 影响 。 


sua a OPEN TABLES; 


----------+----------- +--------+-------------+ 
| Database | Table | In_use | Name locked | 
+---------- +----------- +-------- +------------- 十 
| sakila | film text | 3 | o | 
| sakila | film | 2 | a || 
| sakila | film2 | 1 | a | 
+---------- +----------- +-------- +------------- 十 


3 rows in set (0.00 sec) 


注意 ， 两 个 名 字 (原名 和 新 名 ) 都 被 锁 住 了 。sakila.film_text 因 
sakila.fijm 上 有 个 指向 它 的 触发 器 而 被 锁 ， 这 也 解释 了 另外 一 种 锁 方 
式 ， 它 们 可 以 上 暗地里 将 自己 放置 到 预期 之 外 的 地 方 。 查 询 sakila.film， 
触发 器 会 使 你 悄悄 地 接触 sakila.film_text， 因 而 隐 式 地 锁 住 它 。 触 发 器 
实际 不 需要 因 重 命名 触发 ， 确 实 如 此 ， 因 此 从 技术 上 讲 并 不 需要 锁 ， 
但 事实 是 : MySQL 的 锁 有 时 可 能 并 不 具有 你 所 期 望 的 细 粒 度 。 


MySQL 并 没有 提供 任何 一 种 方法 来 查 明 谁 拥有 命名 锁 ， 但 这 通常 
并 不 是 问题 ， 因 为 它们 一 般 持 有 非常 短 的 一 段 时 间 。 当 有 冲突 时 ， 一 
般 是 由 于 命名 锁 在 等 待 一 个 普通 的 表 锁 ， 而 这 通过 先前 展示 的 
mysqladmin debug 可 以 看 到 。 


HAP i 


在 服务 器 中 实现 的 最 后 一 种 锁 是 用 户 锁 ， 它 基本 是 一 个 命名 互 斥 
量 。 你 需要 指定 锁 的 名 称 字符 串 ， 以 及 等 待 超时 秒 数 。 


a SELECT GET_LOCK('my inl 100) ; 


1 row in set (0.00 sec) 


指令 成 功 返 回 ， 这 个 线程 就 在 命名 互 斥 量 上 持 有 了 一 把 锁 。 如 果 
另外 一 个 线程 此 时 尝试 锁 相同 的 字符 串 ， 它 将 会 挂 起 直到 超时 。 这 次 
进程 列表 显示 了 一 个 不 同 的 进程 状态 。 


mysql> SHOW PROCESSLIST\G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 类 1 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 类 类 


Id: 22 
User: baron 
Host: localhost 
db: NULL 


Command: Query 


Time: 9 
State: User lock 


Info: SELECT GET_LOCK('my lock', 100) 


User lock 状 态 是 这 种 类 型 的 锁 独 有 的 。MySQL 没 有 提供 查 明 谁 拥 
有 用 户 锁 的 方法 。 


InnoDB 中 的 锁 等 待 


服务 器 级 的 锁 要 比 存 储 引 擎 中 的 锁 容 易 调 试 得 多 。 各 个 存储 引擎 
的 锁 互 不 相同 ， 并 且 存 储 引 擎 可 能 不 提供 任何 方法 来 查看 内 部 的 锁 。 
本 附录 主要 关注 InnoDB。 


InnoDB 在 SHOW INNODB STATUS 的 输出 中 显露 了 一 些 锁 信 息 。 
如 果 事 务 正 在 等 待 某 个 锁 ， 这 个 锁 会 显示 在 SHOW INNODB STATUS 
输出 的 TRANSACTIONS 部 分 中 。 例 如 ， 如 果 在 一 个 会 话 中 执行 下 面 
的 命令 ， 将 需要 表 中 第 一 行 的 写 锁 。 


mysql> SET AUTOCOMMIT=0; 
mysql> BEGIN; 
mysql> SELECT film_id FROM sakila.film LIMIT 1 FOR UPDATE; 


如 果 在 另外 一 个 会 话 中 运行 相同 的 命令 ， 查 询 将 会 因 第 一 个 会 话 
中 在 那 一 行 获取 的 锁 而 阻塞 。 可 以 在 SHOW INNODB STATUS 中 看 到 
影响 《为 了 简洁 起 见 我 们 对 结果 有 所 删 减 ) o 


1 LOCK WAIT 2 lock struct(s), heap size 1216 

2 MySQL thread id 8, query id 89 localhost baron Sending 
data 

3 SELECT film_id FROM sakila.film LIMIT 1 FOR UPDATE 

4 ------- TRX HAS BEEN WAITING 9 SEC FOR THIS LOCK TO BE 
GRANTED: 

5 RECORD LOCKS space id 0 page no 194 n bits 1072 index 
“idx_fk_language_id* of table 


‘sakila/film trx id © 61714 lock_mode X waiting 


最 后 一 行 显示 查询 在 等 待 该 表 的 idx_ 人 fk_language_id 索 引 的 194 页 上 
一 个 排他 锁 (lock_mode X) 。 最 终 ， 锁 等 待 超 时， 查询 返回 一 个 错 


‘ca 


IRo 


ERROR 1205 (HY000): Lock wait timeout exceeded; try 


restarting transaction 


不 季 的 是 ， 由 于 看 不 到 谁 拥有 锁 ， 因 此 很 难 确定 哪个 事务 导致 这 
个 问题 。 不 过 往往 可 以 通过 查看 哪个 事务 打开 了 非常 长 的 一 段 时 间 来 
有 根据 地 猜测 ;还 有 另外 一 种 方法 ， 可 以 激活 InnoDB 锁 监控 器 ， 它 最 
多 可 以 显示 每 个 事务 中 拥有 的 10 把 锁 。 为 了 激活 该 监控 器 ， 需 要 在 
InnoDB 存 储 引 稳 中 创建 一 个 特殊 名 字 的 表 。 扣 


mysql> CREATE TABLE innodb lock monitor(a int) 


ENGINE=INNODB ， 


发 起 这 个 查询 后 ，InnoDB 开 始 定 时 地 (这 个 间隔 时 间 可 以 变化 ， 
但 通常 是 每 分 钟 几 次 ) 打印 SHOW INNODB STATUS 的 一 个 略微 加 强 
的 版 本 的 输出 到 标准 输出 中 。 在 大 多 数 系统 中 ， 这 个 输出 被 重 定 向 到 
服务 器 的 错误 日 志 中 ; 你 可 以 检查 它 以 查看 哪个 事务 应 该 拥有 那 把 
锁 。 若 想 停 掉 锁 监控 器 ， 删 除 这 个 表 即 可 。 


下 面 是 锁 监 控 器 输出 的 相关 例子 。 


1 ---TRANSACTION © 61717, ACTIVE 3 sec, process no 5102, OS 
thread id 1141152080 
2 3 lock struct(s), heap size 1216 
3 MySQL thread id 11, query id 108 localhost baron 
4 show innodb status 
5 TABLE LOCK table ‘sakila/film trx id © 61717 lock mode 
IX 
6 RECORD LOCKS space id © page no 194 n bits 1072 index 
“idx_fk_language_id* of table 
‘sakila/film trx id © 61717 lock_mode X 
7 Record lock, heap no 2 PHYSICAL RECORD: n_fields 2; 
compact format; info bits 0 
8 ... Omitted ... 
9 
10 RECORD LOCKS space id © page no 231 n bits 168 index 
“PRIMARY” of table `sakila/film` 
trx id 0 61717 lock_mode X locks rec but not gap 


11 Record lock, heap no 2 PHYSICAL RECORD: n_fields 15; 


compact format; info bits 0 


12 ... omitted ... 


请 注意 ， 第 3 行 显示 的 MySQL 线 程 ID ， 跟 进程 列表 里 ID 列 的 值 是 
一 样 的 。 第 5 行 显 示 了 该 事务 在 表 里 有 一 个 显 式 的 独占 表 锁 (IX) o 
第 6 一 8 行 显 示 了 索引 里 的 锁 。 我 们 删除 了 第 8 行 的 信息 ， 是 因为 它 导 
了 这 个 锁定 的 记录 ， 显 得 非常 累 费 。 第 9~11 行 显示 了 主键 上 相应 的 锁 
(FOR UPDATE 锁 必须 锁 住 整 行 ， 而 不 仅仅 是 索引 ) o 


当 锁 监控 器 被 激活 的 时 候 ，SHOW INNODB STATUS 里 也 会 有 额 
外 的 信息 ， 因 此 ， 实 际 上 无 须 检 查 服 务 器 的 错误 日 志 ， 就 可 以 查看 锁 


人 
=F. 


出 于 种 种 原因 ， 锁 监控 器 并 不 是 最 理想 的 。 它 的 主要 问题 是 锁 信 
息 非常 元 长 ， 因 为 导出 了 被 锁定 记录 的 十 六 进 制 格 式 和 ASCII 格 式 。 
它 会 填 满 错误 日 志 ， 并 且 还 会 很 轻易 地 溢出 固定 长 度 的 SHOW 
INNODB STATUS 输出 结果 。 这 意味 着 你 可 能 无 法 查看 到 在 那 一 段 之 
后 的 其 他 输出 信息 。InnoDB 对 每 个 事务 打印 锁 的 数量 有 硬 编码 限制 ， 
即 每 个 事务 只 能 打印 出 10 个 持 有 的 锁 ， 超 过 10 个 就 无 法 输出 ， 这 意味 
着 你 可 能 看 不 到 需要 的 锁 信 息 。 这 还 不 算 完 ， 即 使 要 找 的 东西 确实 在 
里 面 ， 也 难以 把 它 从 所 有 锁 的 输出 信息 里 定位 出 来 。 (只 需 在 一 个 繁 
忙 的 系统 上 试 一 下 ， 你 就 会 体会 到 这 一 点 。) 


有 两 样 东 西 能 够 使 锁 的 输出 信息 更 加 有 用 。 第 一 样 是 本 书 作 者 之 
一 为 InnoDB 和 MySQL 服 务 器 编写 的 一 个 补丁 ， 包 含 在 Percona Server 
和 MariaDB 中 。 这 个 补丁 会 移 除 输 出 结果 里 那些 见长 的 记录 导出 信 
息 ， 默 认 会 把 锁 信 息 包含 到 SHOW INNODB STATUS 的 输出 中 (因而 


锁 监 控 器 就 无 须 激 活 了 ) ， 还 会 增加 动态 可 设置 服务 器 变量 来 控制 见 
长 的 输出 信息 ， 以 及 每 个 事务 能 打印 出 的 锁 信息 的 个 数 。 


第 二 个 可 选用 的 方法 是 使 用 innotop 来 解析 和 格式 化 输出 结果 。 它 
的 Lock 模 式 能 够 显示 锁 信息 ， 并 通过 连接 和 表 优 美 地 聚合 在 一 起 ， 因 
而 能 很 快 地 看 出 哪 一 个 事务 持 有 指定 表 的 锁 。 但 是 ， 这 也 并 非 是 万 无 
一 失 的 方法 ， 因 为 它 是 通过 检查 所 有 被 锁定 记录 的 导出 信息 来 精确 地 
找 出 那个 被 锁定 记录 。 无 论 怎 样 ， 这 还 是 要 比 单 用 的 方法 好 很 多 ， 对 
于 大 多 数 用 途 都 足够 好 了 。 


使 用 INFORMATION SCHEMA 


使 用 SHOW INNODB STATUS 来 查看 锁 绝 对 是 老 派 做 法 ， 现 在 
InnoDB 有 INFORMATION_SCHEMA 来 显露 它 的 事务 和 锁 。 


如 果 你 看 不 到 这 个 表 ， 说 明 你 使 用 的 InnoDB 版 本 还 不 够 新 。 至 少 
需要 MySQL 5.1 和 InnoDB 插 件 。 如 果 你 正在 使 用 MySQL 5.1， 但 没有 
看 到 INNODB_LOCKS 表 , is FA SHOW VARIABLES 检查 
innodb_version 变量 。 如 果 没 有 看 到 这 个 变量 ， 说 明 你 还 没有 使 用 
InnoDB 插 件 ， 你 需要 它 ! 如 果 看 到 了 这 个 变量 但 没有 那些 表 ， 那 么 你 
需要 确保 服务 器 配置 文件 的 plugin_load 设 置 中 明确 包括 了 那些 表 。 详 
情 请 查阅 MySQL 用 户 手册 。 


幸运 的 是 ，MySQL 5.5 中 不 需要 担心 这 些 ，InnoDB 的 高 级 版 本 已 
经 将 它 编 译 到 服务 器 中 。 


对 这 些 表 可 使 用 的 查询 ，MySQL 和 InnoDB 手 册 都 有 样 例 ， 在 此 不 
再 重复 ， 但 我 们 要 增加 两 个 自己 的 例子 。 例 如 ， 下 面 是 一 个 显示 谁 阻 
塞 和 谁 在 等 待 ， 以 及 等 待 多 久 的 查询 。 


SELECT r.trx_id AS waiting_trx_id, r.trx_mysql_thread_id AS 
waiting_thread, 
TIMESTAMPDIFF (SECOND, r.trx_wait_started, 
CURRENT_TIMESTAMP) AS wait_time, 
r.trx_query AS waiting_query, 
1.lock_table AS waiting _table_lock, 
b.trx_id AS blocking _trx_id, b.trx_mysql_thread_id AS 
blocking_thread, 
SUBSTRING(p.host, 1, INSTR(p.host, ':') - 1) AS 
blocking_host, 
SUBSTRING(p.host, INSTR(p.host, ':') +1) As 
blocking_port, 
IF(p.command = "Sleep", p.time, 0) AS idle_in_trx, 
b.trx_query AS blocking_query 
FROM INFORMATION_SCHEMA.INNODB_LOCK_WAITS AS w 
INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS b ON 
b.trx_id = w.blocking_trx_id 
INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS r ON 
r.trx_id = w.requesting_trx_id 
INNER JOIN INFORMATION_SCHEMA.INNODB_LOCKS AS 1 ON 
w.requested_lock_id = 1.lock_id 


LEFT JOIN INFORMATION _SCHEMA.PROCESSLIST AS p ON p.id 


= b.trx_mysql_thread_id 


ORDER BY wait_time DESC\G 


火炎 大火 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 


waiting_trx_id: 5D03 
waiting_thread: 3 
wait_time: 6 
waiting query: select * from store limit 1 for update 
waiting_table_lock: ‘sakila .store. 
blocking_trx_id: 5D02 
blocking_thread: 2 
blocking_host: localhost 
blocking_port: 40298 
idle_in_trx: 8 


blocking_query: NULL 


结果 显示 线程 3 已 经 等 待 store 表 中 的 锁 达 6s。 它 在 线程 2 上 被 阻 
塞 ， 而 该 线程 已 经 空 闪 了 8s。 


如 果 你 因为 线程 在 一 个 事务 中 空 闪 而 正在 遭受 大 量 的 锁 操作 ， 下 
面 的 这 个 变种 查询 可 以 告诉 你 有 多 少 碍 询 被 哪些 线程 阻塞 ， 而 没有 多 
余 的 无 用 信息 。 


SELECT CONCAT('thread ', b.trx_mysql_thread_id, ' from ', 
p.-host) AS who_blocks, 
IF(p.command = "Sleep", p.time, 0) AS idle_in_trx, 


MAX(TIMESTAMPDIFF(SECOND, r.trx_wait_started, NOW())) AS 


max_wait_time, 
COUNT(*) AS num_waiters 
FROM INFORMATION_SCHEMA.INNODB_LOCK_WAITS AS w 
INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS b ON b.trx_id = 


w.blocking_trx_id 


INNER JOIN INFORMATION_SCHEMA.INNODB_TRX AS r ON r.trx_id 
w.requesting_trx_id 


LEFT JOIN INFORMATION _SCHEMA.PROCESSLIST AS p ON p.id 


b.trx_mysql_thread_id 


GROUP BY who_blocks ORDER BY num _waiters DESC\G 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 1 row 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 类 


who_blocks: thread 2 from localhost:40298 
idle_in_trx: 1016 
max_wait_time: 37 


num_waiters: 8 


结果 显示 线程 2 已 经 空 册 了 更 长 的 一 段 时 间 ， 并 且 至 少 有 一 个 线程 
已 经 等 待 它 释 放 它 的 锁 长 达 37s。 有 8 个 线程 在 等 待 线程 2 完 成 它 的 工作 


并 提交 。 


我 们 发 现 idle-in-transaction 锁 操作 是 常见 锁 故 障 的 一 种 起 因 ， 并 且 
有 时 候 很 难 诊 断 。Percona Toolkit 中 的 pt-kil1! 可 以 配置 用 来 杀 死 长 时 间 ] 
运行 的 空 闪 事务 以 阻止 这 个 场景 。Percona Server 本 身 也 支持 一 个 空闲 
事务 超时 参数 来 完成 相同 的 事情 。 


(1) 如 果 需 要 回忆 关于 服务 器 和 存储 引擎 之 间 的 隔离 ， 请 参考 第 1 章 中 的 图 1-1。 


(2) InnoDB 把 几 个 “神奇 的 * 表 名 作为 操作 指令 来 用 。 当 前 采用 的 是 动态 可 设置 的 服务 器 变 
=, 但 是 ， InnoDB 的 方法 已 经 使 用 了 很 长 一 段 时 间 ， 所 以 仍然 留 有 原先 的 行为 方式 。 


附录 F ”在 MySQL 上 使 用 Sphinx 


Sphinx (http:/www.sphinxsearch.com) 是 一 个 免费 、 开 源 的 全 文 
搜索 引擎 ， 设 计 着 眼 于 与 数据 库 完美 结合 。 它 有 类 似 DBMS 的 特性 ， 
查询 速度 非常 快 ， 支 持 分 布 式 检索 ， 并 且 可 扩展 性 好 。 它 可 以 高 效 利 
用 内 存 和 磁盘 IO ， 缓 解 大 型 操作 在 这 部 分 的 瓶颈 ， 这 非常 重要 。 


Sphinx 在 MySQL 上 工作 得 很 好 。 它 可 以 被 用 来 加 速 各 种 各 样 的 查 
询 ， 包 括 全 文 搜索 。 也 可 以 用 来 在 其 他 应 用 中 执行 快速 的 分 组 和 排序 
操作 。 它 遵从 MySQL 的 通信 协议 ， 以 及 主要 的 MySQL 的 SQL 语法 ， 使 
用 户 就 像 操 纵 MySQL 一 样 进行 查询 。Sphinx 对 某 些 特定 的 查询 非常 有 
用 : MySQL 的 通用 架构 对 真实 世界 中 的 大 型 数据 库 优 化 得 并 不 好 。 简 
而 言 之 ，Sphinx 可 以 加 强 MySQL 的 功能 和 性 能 。 


Sphinx 索引 的 源 数 据 通常 就 是 MySQL SELECT 碍 询 的 结果 ， 但 
是 ， 也 可 以 用 不 同类 型 的 无 限 的 数据 来 源 来 建立 索引 ， 每 一 个 Sphinx 
示例 都 能 搜索 到 无 限 的 索引 。 举 例 来 说 ， 你 可 以 从 位 于 一 台 远 程 服 务 
器 上 的 MySQL 实例 拉 几 份 文 档 放 入 索引 里 ， 从 位 于 另 一 台 远 程 服务 器 
上 的 PostgreSQL 实 例 拉 几 份 文档 过 来 ， 再 加 上 几 份 本 地 的 脚本 通过 
XML 管道 机 制 输出 的 文档 。 


在 本 附录 里 ， 我 们 将 列举 一 些 能 让 Sphinx 体 现 出 性 能 增强 的 使 用 
案例 ， 然 后 讲述 一 下 安装 和 配置 Sphinx 所 需 的 主要 步 又， 接着 详细 说 
明 它 的 功能 特点 ， 最 后 讨论 几 个 现实 中 应 用 的 例子 。 


一 个 典型 的 Sphinx 搜 索 


我 们 用 一 个 简单 但 是 完整 的 Sphinx 应 用 例子 作为 进一步 讨论 的 起 
点 。 昌 然 Sphinx 的 API 可 用 于 多 种 编程 语言 ， 但 是 ， 在 这 里 我 们 使 用 的 
是 PHP， 因 为 它 比较 普及 。 


假设 我 们 要 实现 的 是 一 个 用 于 比较 购物 引擎 里 的 全 文 搜索 ， 其 具 
体 需求 如 下 。 


。 对 MySQL 中 的 一 个 产品 表 维护 一 个 可 搜索 的 全 文 索 引 。 
。 人 允许 对 产品 的 名 称 和 描述 进行 全 文 搜索 。 
。 如 有 和 需要， 能 够 用 指定 的 分 类 缩小 搜索 范围 。 
。 不 仅 可 以 按 关 联 度 对 搜索 结果 进行 排序 ， 也 可 以 用 物品 的 价格 或 
交 日 期 来 排序 。 


我 们 先 在 Sphinx 配 置 文件 里 设置 好 效 据 产 和 索引 。 


source products 


{ 
type = mysql 
sql_host = localhost 
sql_user = shopping 
sql_pass = mysecretpassword 
sql_db = shopping 
sql_query = SELECT id, title, description, \ 
cat_id, price, UNIX_TIMESTAMP(added_date) AS 
added_ts \ 


FROM products 


sql_attr_uint = cat_id 


sql_attr_float = price 


sql_attr_timestamp = added_ts 


} 

index products 

{ 
source = products 
path = /usr/local/sphinx/var/data/products 
docinfo = extern 

} 


这 个 例子 假设 MySQL 的 shopping 数 据 库 中 包含 了 products 表 ， 而 此 
表 中 有 供 我 们 执行 SELECT 碍 询 生成 我 们 的 Sphinx 索 引 的 列 。 该 Sphinx 
索引 也 命名 为 products。 在 创建 新 数据 源 和 索引 后 ， 我 们 运行 indexer 程 
序 来 创建 最 初 的 全 文 索引 数据 文件 ， 然 后 启动 (REA) searchd 后 台 
进程 以 同步 这 些 变更 。 


cd /usr/local/sphinx/bin 
./indexer products 
./searchd --stop 


./searchd 


索引 现在 已 经 就 绪 可 以 用 于 查询 了 。 我 们 用 Sphinx 捆 比 的 test.php 
样 例 脚本 来 测试 它 。 


$ php -q test.php -i products ipod 


Query ‘ipod ' retrieved 3 of 3 matches in 0.010 sec. 
Query stats: 
'ipod' found 3 times in 3 documents 
Matches: 
1. doc_id=123, weight=100, cat_id=100, price=159.99, 
added_ts=2008-01-03 22:38:26 
2. doc_id=124, weight=100, cat_id=100, price=199.99, 
added_ts=2008-01-03 22:38:26 
3. doc_id=125, weight=100, cat_id=100, price=249.99, 
added_ts=2008-01-03 22:38:26 


最 后 一 步 是 将 搜索 功能 加 到 我 们 的 网 络 应 用 中 。 我 们 需要 基于 用 
户 输入 设置 排序 和 过 滤 选 项 ， 并 让 输出 格式 漂亮 些 。 同 时 ， 因 为 
Sphinx 返 回 给 客户 端的 只 有 文档 的 ID 和 配置 属性 一 一 它 没有 存储 任何 
原始 文本 数据 一 一 所 以 ， 我 们 还 要 从 MySQL 里 读 取 对 应 的 行 数据 。 


1 <?php 
2 include ( "sphinxapi.php" ); 
3 // ... other includes, MySQL connection code, 


4 // displaying page header and search form, etc. all go 


here 
5 
6 // set query options based on end-user input 
7 $cl = new SphinxClient (); 
8 $sortby = $_REQUEST["sortby"]; 


9 if ( !in_array ( $sortby, array ( "price", "added_ts" ) ) 


10 $sortby = "price"; 
11 if ( $_REQUEST["sortorder"]=="asc" ) 


12 $cl->SetSortMode ( SPH_SORT_ATTR_ASC, $sortby ); 


13 else 


14 $cl->SetSortMode ( SPH _SORT_ATTR_DESC, $sortby ); 


15 $offset = ($_REQUEST["page"]-1)*$rows_per_page; 

16 $cl->SetLimits ( $offset, $rows_per_page ); 

17 

18 // issue the query, get the results 

19 $res = $cl->Query ( $_REQUEST["query"], "products" ); 
20 

21 // handle search errors 


22 if ( !$res ) 


23 { 

24 print "<b>Search error:</b>" . $cl->GetLastError (); 
25 die; 

26 } 

27 


28 // fetch additional columns from MySQL 

29 $ids = join ( ",", array_keys ( $res["matches"] ); 

30 $r = mysql_query ( "SELECT id, title FROM products WHERE 
id IN ($ids)" ) 

31 or die ( "MySQL error: " . mysgql_error() ); 

32 while ( $row = mysql_fetch_assoc($r) ) 

33 { 

34 $id = $row["id"]; 


35 $res["matches"][$id]["sql"] = $row; 


37 

38 // display the results in the order returned from Sphinx 

39 $n = 1 + $offset; 

40 foreach ( $res["matches"] as $id=>$match ) 

41 { 

42 printf ( "%d. <a href=details.php?id=%d>%s</a>, USD 
%.2F<br>\n", 

43 $n++, $id, $match["sql"]["title"], 

$match["attrs"]["price"] ); 

4A } 

45 


46 ?> 


尽管 上 面 显示 的 这 段 代码 看 上 去 相当 简单 ， 但 还 是 有 些 东 西 值得 
强调 一 下 。 


。 SetLimits() 调 用 会 告诉 Sphinx 只 获取 客户 端 要 在 页 面 上 显示 的 行 

数 。 做 这 样 的 限定 在 Sphinx 中 很 方便 (不同 于 MySQL 内 建 的 搜索 

TARE) ， 不 加 限定 的 结果 数目 也 可 以 通过 $result['total_found'] 来 获 

得 ， 而 不 需要 任何 额外 开销 。 

因为 Sphinx 只 索引 title 列 ， 并 没有 存储 它 ， 因 而 必须 从 MySQL 里 

读 取 数 据 。 

。 我们 使 用 一 条 单独 的 合成 查询 获取 数据 ， 把 所 有 文档 都 放 在 
WHERE id IN (...) 子 句 中 ， 而 不 是 每 个 文档 运行 一 次 查询 (这 会 
非常 低 效 ) 。 


。 我 们 将 从 MySQL 里 获取 到 的 行 注 入 到 全 文 搜索 的 结果 集 里 ， 以 保 
持原 始 的 排列 顺序 。 在 下 文 里 我 们 会 对 此 做 一 些 解 释 。 
。 我 们 使 用 来 自 Sphinx 和 MySQL 的 数据 来 显示 每 一 行 。 


那些 由 PHP 写 的 行 注入 代码 需要 再 做 一 些 解释 。 我 们 不 能 简单 地 
对 MySQL 查 询 的 结果 集 做 人 遍历， 因为 行 的 次 序 跟 WHERE id IN (.…) 子 
句 里 指定 的 (多 数 情况 下 ) 不 一 样 。 但 是 ，PHP 会 对 结果 进行 哈 希 
(使 用 关联 数组 ) ， 保 持 匹 配 结果 插入 时 的 排列 顺序 ， 这 样 Sphinx 就 
可 以 通过 $result["matches"] 返 回 排序 正确 的 行 了 。 因 此 ， 为 了 从 Sphinx 
返回 的 匹配 结果 能 保持 正确 的 次 序 (而 不 是 MySQL 生 成 的 那 种 半 随 机 
的 次 序 ) ， 我 们 需要 把 MySQL 的 查询 结果 一 个 接 一 个 地 注入 到 PHP 用 
来 存储 Sphinx 匹 配 结果 集 的 哈 希 中 。 


对 于 计数 匹配 和 应 用 LIMIT 子 句 ，MySQL 和 Sphinx 在 实现 方式 及 
性 能 上 存在 着 比较 大 的 区 别 。 首 先 ，LIMIT 在 Sphinx 里 开销 是 比较 低 
的 。 设 想 有 一 个 LIMIT 500,10 的 子 句 ， MySQL 会 半 随 机 地 读 出 510 行 
数据 〈 这 是 比较 慢 的 ) ， 然 后 丢弃 掉 其 中 的 500 行 ， 而 Sphinx 会 返回 一 
组 ID， 你 可 以 用 这 些 ID 从 MySQL 上 读 取 到 实际 所 需 的 数据 行 。 其 次 ， 
Sphinx 总 是 返回 指定 的 行 数 或 者 它 在 结果 集 里 找到 的 实际 匹配 数目 ， 
而 与 LIMIT 子 句 是 怎么 样 的 无 关 。 MySQL 无 法 做 到 这 么 高 效 ， 尽 管 在 
MySQL 5.6 中 对 这 个 限制 有 部 分 的 优化 。 


为 什么 要 使 用 Sphinx 


Sphinx 可 以 在 多 个 方面 完善 基于 MySQL 的 应 用 程序 ， 能 补充 
MySQL 的 性 能 不 足 ， 还 提供 了 MySQL 所 没有 的 功能 。 典 型 的 使 用 场 
景 如 下 。 


快速 、 高 效 、 可 扩展 和 核心 的 全 文 搜索 。 

能 在 使 用 低 选 择 性 索引 或 无 索引 的 列 时 优化 WHERE 条 件 。 
优化 ORDER BY ... LIMITN 查 询 以 及 GROUP BY 查询 。 

并 行 地 产生 结果 集 。 

向 上 扩展 和 向 外 扩展 。 

聚合 分 片 数据 。 


我 们 在 下 面 这 些小 节 里 对 这 些 场 景 逐一 进行 探讨 。 然 而 ， 这 个 列 
表 也 不 是 完整 的 ， Sphinx 的 用 户 时 不 时 还 会 发 现 新 的 应 用 方法 。 例 
如 ，Sphinx 最 重要 用 途 之 一 一 一 快速 扫描 和 过 滤 记 录 一 一 就 是 由 一 位 
用 户 创造 出 来 的 ， 并 不 是 Sphinx 最 初 的 设计 目标 之 一 。 


高 效 、 可 扩展 的 全 文 搜索 


MyISAM 的 全 文 搜 索 能 力 对 小 数据 集 非 常 快 ， 但 随 着 数据 量 增 
长 ， 性 能 会 非常 低 。 对 百 万 级 别 的 记录 量 和 上 GB 的 索引 文本 ， 查 询 时 
间 会 在 1 秒 到 超过 10 分 钟 之 间 变 化 ， 而 这 对 于 高 性 能 的 网 站 应 用 来 说 是 
不 可 接受 的 。 尽 管 通过 将 数据 分 布 到 多 个 地 方 可 能 会 扩展 MyISAM 的 
全 文 搜索 ， 但 这 需要 并 行 地 运行 查询 并 在 应 用 程序 中 将 结果 合并 ， 大 
大 增加 了 中 间 层 的 复杂 度 。 


Sphinx 运 作 速 度 要 明显 快 于 MyISAM 内 建 的 全 文 索 引 。 比 如 说 ， 
它 查 询 超过 1GB 的 文本 数据 需要 10~100ms 最 多 可 以 扩展 到 每 个 
CPU 处 理 10~100GB 的 数据 。Sphinx 还 有 如 下 优点 。 


。 它 能 对 InnoDB 及 其 他 存储 引擎 里 存储 的 数据 进行 索引 ， 而 不 仪 仅 
是 MyISAM。 


它 能 对 多 个 源 表 的 混合 数据 创建 索引 ， 不 限于 单个 表 上 的 字段 。 
它 能 将 来 自 多 个 索引 的 搜索 结果 进行 动态 整合 。 

余 了 能 对 文本 列 索引 外 ， 它 的 索引 还 可 以 包含 无 限 数量 的 数字 属 
性 一 一 跟 “ 额 外 字段 "一样 。Sphinx 的 属性 可 以 是 整 型 、 浮 点 型 和 
UNIX At ja] Bh. 

它 能 根据 属性 上 的 附加 条 件 对 全 文 搜索 进行 优化 。 

它 的 基于 短语 的 排列 算法 能 帮助 它 返回 更 多 相关 的 结果 。 例 如 ， 
如 果 你 在 一 个 歌词 表 中 搜索 “我 爱 你 ， 亲 爱 的 "， 那 么 恰好 包含 该 
短语 的 歌曲 将 在 最 上 面 返 回 ， 之 后 才 是 那些 只 包含 多 次 “ 爱 ” 或 “ 杀 
爱 的 ”的 歌曲 。 

它 使 得 向 外 扩展 更 容易 。 


高 效 使 用 WHERE 子 句 


有 时 你 需要 对 很 大 的 表 (有 几 百 万 条 记录 ) 做 SELECT 查询 ， 同 
时 ， 几 个 WHERE 条 件 里 有 索引 选择 性 非常 差 (例如 指定 WHERE 条 件 
返回 太 多 行 ) 或 者 根本 没有 索引 支持 的 字段 。 


e 
TA 


单 见 的 例子 有 : 在 一 个 社交 网 站 上 搜索 用 户 ， 以 及 在 一 个 拍卖 网 
站 上 搜索 物品 。 典 型 的 搜索 接口 是 让 用 户 能 在 WHERE 条 件 加 10 个 或 
更 多 的 列 ， 而 返回 结果 又 是 按 其 他 列 来 排序 。 第 5 和 章 中 索引 案例 研究 的 
例子 ， 就 是 这 样 的 一 个 应 用 ， 并 且 需 要 索引 策略 。 


当 有 合适 的 数据 结构 和 查询 优化 时 ， 只 要 WHERE 子 句 不 包含 太 
多 的 列 ， 尚 可 以 接受 用 MySQL 来 应 付 这 些 查询 。 但 是 ， 随 着 列 的 数目 
增加 ， 支 持 所 有 可 能 搜索 所 需 的 索引 数 会 呈 指 数 级 增长 。 单 是 要 覆盖 
到 四 列 的 所 有 可 能 的 组 合 情 况 ，MySQL 就 要 达到 极限 了 。 它 会 变 得 非 


常 慢 ， 并 且 要 花费 很 多 系统 开销 去 维护 索引 。 这 意味 着 对 于 许多 
WHERE 条 件 ， 实 际 上 不 可 能 拥有 它 所 需要 的 所 有 索引 ， 你 不 得 不 在 
没有 索引 的 条 件 下 运行 查询 。 


更 重要 的 是 ， 即 使 可 以 增加 索引 ， 也 无 法 受益 很 多 ， 除 非 它们 具 
有 良好 的 可 选择 性 。 有 一 个 典型 的 例子 是 gender 列 ， 它 几乎 帮 不 上 
忙 ， 因 为 会 命中 大 约 所 有 行 中 的 一 半 。 当 索引 因 缺 少 可 选择 性 而 帮 有 不 
上 忙 时 ，MySQL 一 般 会 回 到 全 表 扫 描 。 


Sphinx 运 行 这 类 查询 的 速度 比 MySQL 快 很 多 。 你 可 以 只 将 数据 中 

所 需要 的 列 做 成 Sphinx 索 引 。 然 后 Sphinx 会 允许 用 两 种 方式 来 访问 这 

些 数据 : 用 关键 字 索 引 搜 索 或 全 表 扫 描 。 在 这 两 种 方式 里 ，Sphinx 都 

到 了 过 滤器 ， 它 相当 于 一 个 WHERE 子 句 。 但 是 ， 和 MySQL 不 一 

样 ，MySQL 是 在 内 部 决定 使 用 索引 还 是 全 扫描 ， 而 Sphinx 是 让 你 自己 
选择 要 使 用 哪 一 种 访问 方法 。 


要 使 用 带 筛 选 的 全 扫描 ， 你 可 以 指定 一 个 空 字符 串 用 作 搜 索 查 询 
RY; 要 使 用 索引 搜索 ， 你 可 以 在 构建 索引 时 加 一 些 伪 关 键 字 进去 ， 
然后 再 搜索 那些 关键 子 。 例 如 ， 如 果 你 想 搜 索 分 类 123 里 的 物品 ， 你 可 
以 在 建 索 引 时 把 “分 类 123” 关 键 字 添加 到 文档 里 ， 然 后 针对 “分 类 123” 
做 全 文 搜索 。 你 可 以 使 用 CONCATO 遂 数 把 关键 字 加 到 已 有 的 一 个 字 
段 里 ， 或 者 为 了 更 好 的 灵活 性 ， 为 这 些 伪 关键 字 创 建 一 个 特别 的 全 文 
搜索 字段 。 通 常 而 言 ， 对 于 覆盖 率 超 过 30% 无 选择 性 值 的 行 就 应 该 选 
择 筛选 ， 而 对 于 具有 选择 性 的 值 覆 盖 面 不 超过 10% 的 ， 应 该 使 用 伪 关 
键 字 ; 如 果 目 标 值 是 处 于 10%~30% 的 灰色 区 域 ， 就 难说 了 。 你 应 该 
做 几 次 基准 测试 以 找 出 最 佳 解决 方案 。 


Sphinx 无 论 是 执行 索引 搜索 还 是 全 扫描 都 快 过 MySQL。 有 时 ， 
Sphinx 的 全 扫描 实际 上 上 MySQL 的 索引 读 取 还 要 快 。 


找 出 结果 集 里 的 前 几 行 


Web 应 用 常常 需要 用 到 结果 集 里 按 顺 序 排列 的 前 N 行 。 如 同 我 们 之 
前 讨论 过 的 ， 在 MySQL 5.5 和 之 前 版 本 中 很 难 优化 。 


最 糟糕 的 情况 就 是 根据 WHERE 条 件 找 到 了 许多 行 (假设 有 100 万 
íT) ， 而 ORDER BY 里 的 列 却 没有 被 索引 过 。MySQL 使 用 索引 识别 出 
所 有 匹配 的 行 ， 然 后 使 用 半 随 机 磁盘 读 ， 把 记录 一 行 接 一 行 地 读 到 排 
序 缓冲 区 里 ， 接 着 用 一 种 文件 排序 将 这 些 结果 进行 排序 ， 最 后 丢弃 其 
中 的 绝 大 多 数 。 它 会 临时 存储 和 处 理 整 个 结果 集 ， 和 忽略 LIMIT 子 句 ， 
搅乱 RAM。 如 果 排 序 缓冲 区 放 不 下 整个 结果 集 ， 还 需要 用 到 临时 表 ， 
引发 更 多 的 磁盘 IO。 


这 里 还 有 一 个 极端 的 例子 ， 你 可 能 会 认为 这 在 真实 世界 里 几乎 不 
会 发 生 ， 但 事实 上 ， 它 常常 会 发 生 。MySQL 在 用 于 排序 的 索引 方面 是 
有 限制 的 一 一 只 使 用 索引 的 最 左边 部 分 ， 不 支持 松散 索引 扫描 (loose 
index scan )， 并 且 只 人 允许 一 个 单独 的 范围 条 件 一 一 这 意味 着 真实 世界 
里 的 查询 不 能 从 这 些 索 引 中 受益 。 即 使 能 够 受益 ， 使 用 半 随 机 磁盘 1/O 
来 获取 行 也 是 一 个 性 能 杀手 。 


要 对 结果 集 进 行 分 页 ， 常 党 需要 做 形 如 SELECT ... LIMITN,M 的 查 
询 ， 这 是 MySQL 的 另 一 个 性 能 问题 。 它 们 会 从 磁盘 里 读 取 N + M 行 ， 
由 此 引发 大 量 的 随机 VO， 浪 费 内 存 资源 。Sphinx 通过 消除 以 下 两 个 主 
要 问题 可 以 显著 加 速 这 类 查询 。 


内 存 使 用 


Sphinx 对 RAM 的 使 用 有 严格 限制 ， 这 个 限制 也 是 可 以 配置 
的 。Sphinx 也 支持 与 MySQL LIMITN,M 语 法 类 似 的 结果 集 偏 移 量 
和 大 小 ， 但 是 它 还 有 一 个 max_matches 选 项 。 它 以 每 个 服务 器 和 每 
个 查询 为 基础 ， 可 控制 类 似 “ 排 序 缓冲 区 ”的 大 小 。 


I/O 


如 果 属 性 是 存储 在 RAM 里 的 ，Sphinx 就 不 会 做 任何 W/O 操作 。 
即使 属性 是 存储 在 磁盘 上 ，Sphinx 也 是 通过 顺序 1/O 来 读 取 它 们 ， 
这 比 MySQL 使 用 半 随 机 方式 从 磁盘 获取 行 要 快 很 多 。 


通过 综合 关联 度 (NE) 、 属 性 值 和 聚合 函数 值 ( 当 使 用 GROUP 
BY 时 ) ， 可 以 对 搜索 结果 进行 排序 。 排 序 子 句 的 语法 跟 SQL ORDER 
BY 子 句 类 似 。 


<?php 

$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH_SORT_EXTENDED, 'price DESC, @weight 
ASC' ); 

// more code and Query() call here... 


?> 


在 本 例 中 ，price 是 存储 在 索引 中 的 用 户 指定 的 属性 ，@weight 是 
一 个 特殊 的 属性 ， 在 运行 时 创建 ， 它 包含 的 是 每 一 个 搜索 结果 估算 出 
来 的 关联 度 。 你 也 可 以 使 用 算术 表达 式 对 结果 再 进行 排序 ， 算 术 表 达 
式 里 可 以 包含 属性 值 、 单 用 数学 运算 符 和 函数 。 


<?php 
$cl = new SphinxClient (); 
$cl->SetSortMode ( SPH_SORT_EXPR, "@weight + 
log(pageviews)*1.5' ); 
// more code and Query() call here... 


?> 


优化 GROUP BY 查询 


没有 GROUP BY 功能 的 话 ， 对 于 日 常 的 类 SQL 子 句 的 支持 也 将 不 
完整 ， 因 此 ，Sphinx 也 支持 GPOUP BY。 但 与 MySQL 的 通用 实现 不 
同 ，Sphinx 擅 长 高 效 筛选 出 GROUP BY 任务 所 需要 的 实际 子 集 。 这 个 
子 集 可 以 从 如 下 场景 拥有 的 大 数据 集 (1 亿 行 ) 中 生成 报表 : 


© 结果 是 分 组 行 中 的 少 部 分 (这 里 的 “ 少 ” 是 指 10 万 ~100 万 量 级 ) 。 
当 从 分 布 在 集群 中 的 多 台 机 器 上 获取 很 多 分 组 数据 时 ， 需 要 非常 
快 的 执行 速度 ， 同 时 近似 的 COUNT(*) 结 果 可 以 接受 。 


这 没有 听 起 来 那样 严格 。 第 一 个 场景 实际 上 覆盖 了 所 有 可 以 想象 
的 基于 时 间 的 报告 。 举 个 例子 ， 每 小 时 一 次 且 持 续 时 间 为 10 年 的 一 个 
详细 报告 ， 将 会 返回 少 于 90 000 行 记录 。 第 二 个 场景 可 以 像 这 样 通俗 
地 表述 :“ 尽 可 能 迅速 和 精确 地 从 1 亿 行 的 分 片 表 中 找 出 最 重要 的 20 条 
记录 。” 


这 两 种 类 型 的 查询 会 加 速 通用 查询 ， 但 也 可 以 在 全 文 搜索 应 用 中 
使 用 。 许 多 应 用 不 仅 需 要 显示 全 文 匹配 结果 ， 还 要 显示 一 些 聚集 结 


果 。 例 如 ， 许 多 搜索 结果 页 显示 了 每 个 产品 目录 中 有 多 少 匹 配 的 产品 
被 找到 ， 或 一 张 按时 间 顺 序 的 数量 变化 图 。Sphinx 的 group-by 支 持 可 以 
结合 分 组 和 全 文 搜索 ， 消 除 在 应 用 程序 或 MySQL 中 做 分 组 的 开销 。 


在 Sphinx 中 的 排序 和 分 组 都 使 用 固定 的 内 存 ， 它 的 效率 比 类 似 数 
据 集 全 部 可 以 放 在 RAM 中 的 MySQL 查询 要 稍微 (10%~50%) 高 
些 。 在 本 例 中 ， 大 部 分 Sphinx 的 能 力 来 源 于 它 可 以 分 散 负 载 和 大 大 减 
少 延 时 。 对 于 永 不 会 全 部 放 入 RAM 中 的 大 数据 集 来 说 ， 可 以 使 用 内 联 
属性 (后 面 会 定义 ) 创建 特别 的 基于 磁盘 的 索引 来 生成 报告 。 对 这 些 
索引 执行 查询 大 约 和 读数 据 一 样 快 -一 一 在 现代 硬件 中 大 概 是 30~ 
100MB/s。 在 这 个 情况 下 ， 性 能 会 比 MySQL 好 许多 倍 ， 尽 管 结果 是 近 
似 的 。 


与 MySQL 的 GROUP BY 最 大 的 不 同 点 是 ， 在 某 些 特定 场景 下 
Sphinx 可 能 只 生成 近似 结果 。 对 于 这 点 有 两 个 原因 。 


。 使 用 固定 量 的 内 存 来 做 分 组 。 如 果 有 太 多 的 分 组 而 不 能 放 在 RAM 
中 ， 并 且 以 某 种 “不 幸 的 ”顺序 匹配 ， 每 组 数量 可 能 比 实 际 值 要 
小 \。 

分 布 式 搜索 只 发 送 联 合 结果 ， 而 不 是 一 个 节点 一 个 节点 进行 匹 
配 。 如 果 在 不 同 的 节点 上 有 重复 记录 ， 每 组 去 重 的 数据 可 能 会 比 
实际 值 要 大 ， 因 为 可 以 去 重 的 信息 并 没有 在 节点 之 间 传 送 。 


实践 中 ， 快 速 的 近似 group-by 数 量 经 常 是 可 以 接受 的 。 如 果 这 不 
可 接受 ， 往 往 也 可 能 通过 仔细 地 配置 后 台 进 程 和 客户 端 应 用 来 取得 精 
确 结果 。 


你 也 可 以 产生 与 COUNT(DISTINCT <attribute>) 等 价 的 结果 。 例 
如 ， 在 一 个 拍卖 网 站 上 ， 你 可 以 使 用 它 来 计算 每 个 分 类 里 卖家 的 精确 
数目 。 


最 后 ，Sphinx 可 以 让 你 选取 一 个 标准 ， 然 后 用 这 个 标准 在 每 个 分 
组 里 找到 唯一 的 “最 合适 ”的 文档 。 例 如 ， 在 以 域 分 组 且 按 每 个 域 里 的 
匹配 数量 排序 结果 集 时 ， 可 以 从 每 个 域 里 选择 相关 度 最 高 的 文档 。 这 
在 MySQL 里 不 用 复杂 的 查询 是 做 不 到 的 。 


并 行 地 取 结 果 集 


Sphinx 可 以 让 你 从 相同 数据 中 同时 产生 几 份 结果 ， 同 样 是 使 用 固 
定量 的 内 存 。 作 为 对 比 ， 传 统 的 SQL 方法 要 么 运行 两 个 查询 (HEA 
望 两 次 运行 中 某 些 数据 维持 在 缓存 中 ) ， 要 么 对 每 个 搜索 结果 集 创建 
一 个 临时 表 ，Sphinx 的 方法 会 产生 显著 的 改进 。 


举例 来 说 ， 假 设 你 需要 针对 每 天 、 每 星期 、 每 月 定期 生成 该 段 时 
间 周 期 里 的 报表 ， 要 用 MySQL 生 成 将 不 得 不 使 用 不 同 的 GROUP BY 子 
句 运行 三 次 查询 ， 对 源 数据 处 理 三 次 。 然 而 ， Sphinx 对 于 这 些 数据 只 
要 处 理 一 次 就 行 了 ， 然 后 就 可 以 并 行 地 生成 全 部 三 份 报表 。 


Sphinx 用 一 个 multi-query 机 制 来 完成 这 项 任务 。 不 是 一 个 接 一 个 地 
发 起 查询 ， 而 是 把 几 个 查询 做 成 一 个 批 处 理 ， 然 后 在 一 个 请 求 里 提 


zx 
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<?php 


$cl = new SphinxClient (); 

$cl->SetSortMode ( SPH_SORT_EXTENDED, "price desc" ); 

$cl->AddQuery ( "ipod" ); 

$cl->SetGroupBy ( "category_id", SPH _GROUPBY_ATTR, "@count 
desc" ); 

$cl->AddQuery ( "ipod" ); 

$cl->RunQueries (); 


?> 


Sphinx 会 分 析 这 个 查询 ， 识 别 出 可 以 合并 的 各 查询 部 分 ， 然 后 并 
行 地 执行 这 些 查 询 。 


例如 ，Sphinx 可 能 注意 到 ， 排 序 和 分 组 的 模式 有 些 不 同 ， 而 查询 
是 相同 的 。 这 就 是 上 面 显示 的 示例 代码 里 的 情形 一 一 用 price 排 序 但 用 
category_id 分 组 。 Sphinx 会 创建 几 个 排序 队列 来 处 理 这 些 查 询 。 当 运 
行 这 些 查 询 时 ， 它 会 一 次 性 地 获取 到 行 ， 然 后 把 它们 提交 到 所 有 的 队 
列 里 。 与 一 个 接 一 个 运行 查询 相 比 较 ， 这 个 方法 消除 了 几 个 见 余 的 全 
文 检索 或 全 扫描 操作 。 


注意 并 行 结果 集 的 生成 ， 虽 然 这 是 常见 又 重要 的 优化 ， 但 是 ， 这 
只 是 更 一 般 化 的 multi-query 机 制 的 一 个 特例 。 它 不 是 唯一 可 能 的 优 
化 。 其 中 的 指导 法 则 是 尽 可 能 地 把 多 个 查询 放 在 一 个 请 求 中 ， 这 通常 
有 助 于 Sphinx 开 展 内 部 优化 操作 。 即 使 Sphinx 无 法 并 行 处 理 这 些 碍 
询 ， 也 可 以 节省 网 络 往返 。 而 且 ， 如 果 将 来 Sphinx 加 入 更 多 的 优化 功 
能 ， 你 的 查询 就 能 自动 地 使 用 到 它们 而 无 须 做 任何 修改 。 


扩展 


Sphinx 的 可 扩展 性 无 论 在 水 平方 向 (向 外 扩展 ) 还 是 垂直 方向 
(向 上 扩展 ) 上 都 非常 好 。 


Sphinx 完全 可 以 在 各 机 器 之 间 分 布 。 我 们 提 到 过 的 用 户 案例 都 能 
受益 于 跨 CPU 的 分 布 工 作 。Sphinx 的 搜索 后 台 进程 (searchd) 支持 特 
别 的 分 布 式 索引 ， 它 知道 哪些 本 地 和 远程 的 索引 需要 查询 和 聚合 。 这 
意味 着 向 外 扩展 就 是 一 次 轻微 的 配置 更 改 。 你 只 需 在 各 个 节点 间 将 数 
据 分 多， 然后 配置 主 节点 使 其 能 向 其 他 节点 并 行 地 发 起 查询 。 这 就 是 
所 有 要 做 的 事情 。 


你 也 能 向 上 扩展 ， 在 单独 的 机 器 上 增加 更 多 CPU 或 内 核 ， 从 而 提 
高 响应 速度 。 为 了 达到 这 个 目的 ， 你 可 以 在 单 台 机 器 上 运行 好 几 个 
searchd 实 例 ， 然 后 通过 分 布 式 索 引 ， 从 另外 的 机 器 过 来 查询 它们 。 另 
外 一 种 可 选择 的 方法 是 ， 你 可 以 把 一 个 单独 的 实例 配置 为 能 与 它 自 己 
通信 ， 这 样 并 行 的 “远程 ”查询 其 实 就 发 生 在 同一 台 机 器 上 ， 但 是 使 用 
的 是 不 同 的 CPU 或 内 核 。 


换 句 话说 ， 使 用 Sphinx 的 单个 查询 也 能 使 用 到 不 止 一 个 CPU (多 
个 并 发 查询 会 自动 使 用 多 个 CPU) 。 这 跟 MySQL 有 显著 的 区 别 ， 
MySQL 的 一 个 查询 只 能 使 用 到 一 个 CPU， 无 论 有 多 少 个 CPU 可 供 使 
用 。 另 外 ，Sphinx 在 并 发 执行 查询 时 不 需要 任何 同步 ， 这 就 避免 了 使 
BERA (一 种 同步 机 制 ) 。 而 互 斥 体 正 是 MySQL 在 多 CPU 环境 下 才 
会 出 现 的 声名 狼藉 的 性 能 瓶颈 之 一 。 


向 上 扩展 的 另 一 个 重要 方面 是 扩展 磁盘 IO。 不 同 的 索引 (包括 部 
分 更 大 型 的 分 布 式 索引 ) 能 够 轻松 地 放 在 不 同 的 物理 磁盘 或 RAID 分 卷 
上 ， 以 提高 响应 速度 和 吞吐 量 。 这 个 方法 的 一 部 分 好 处 跟 MySQL 5.1 
的 分 片 表 一 样 ， 后 者 能 将 数据 分 片 存 储 到 不 同 的 位 置 上 。 不 过 ， 分 布 


式 索 引 也 有 一 些 比分 片 表 更 好 的 优点 。Sphinx 使 用 分 布 式 索引 不 仅 可 
以 分 散 负 载 ， 还 能 并 行 地 处 理 一 个 查询 的 各 个 部 分 。 相 比 之 下 ， 
MySQL 的 分 片 表 能 通过 对 分 片 的 剪 枝 来 优化 一 些 查询 (并 不 是 所 有 
AY) ， 但 查询 的 处 理 是 不 能 并 行 的 。 即 使 Sphinx 和 MySQL 的 分 片 都 能 
提高 查询 的 吞吐 量 ， 但 如 果 查 询 是 IO 密集 的 ， 则 可 以 使 用 Sphinx 让 所 
有 查询 的 响应 速度 得 到 线性 的 提高 ， 而 MySQL 分 片 只 能 对 那些 可 采用 
剪 去 整个 分 区 的 查询 才能 改善 延 时 。 


分 布 式 搜 索 的 工作 流程 非常 直观 。 


1. 向 所 有 远程 服务 器 发 出 远程 查询 。 

2. 执行 连续 的 本 地 索引 搜索 。 

3. 从 每 个 远程 服务 器 上 读 取 部 分 搜索 结果 。 

4. 将 所 有 局 部 搜索 结果 合并 成 最 终结 果 集 ， 并 将 它 返回 给 客户 端 。 


如 果 硬 件 资 源 允 许 ， 也 可 以 在 同一 台 机 器 上 并 行 地 使 用 几 个 索引 
进行 搜索 。 如 果 有 多 个 物理 磁盘 驱动 器 和 多 个 CPU 内 核 ， 那 么 并 发 查 
询 就 能 互 不 妨碍 地 执行 。 你 可 以 假装 有 一 些 索引 是 远程 的 ， 然 后 配置 
searchd 联 系 目 身 ， 从 而 在 同一 台 机 器 上 发 起 并 行 查 询 。 


index distributed_sample 
{ 
type = distributed 
local = chunk1 # resides on HDD1 
agent = localhost:3312:chunk2 # resides on HDD2, 
searchd contacts itself 


i 


从 客户 端的 视角 来 看 ， 分 布 式 索引 跟 本 地 索引 完全 没什么 两 样 。 
这 就 允许 你 通过 使 用 节点 来 代理 其 他 的 节点 集 的 方式 ， 来 创建 出 一 标 
分 布 式 索引 的 “ 树 ”。 例 如 ， 第 一 级 节点 可 以 代理 一 定量 的 第 二 级 节点 
的 查询 请 求 ， 结 果 就 是 ， 可 以 以 任意 的 路 径 ， 本 地 搜索 它们 本 身 ， 或 
传递 查询 到 其 他 节点 。 


聚合 分 片 数 据 


构建 一 个 可 扩展 的 系统 单单 要 涉及 数据 在 不 同 物理 MySQL 服 务 器 
间 的 分 片 (分 区 ) 。 这 在 第 11 章 里 已 经 深入 讨论 过 了 。 


当 数 据 以 合适 的 粒度 分 片 后 ， 即 使 只 是 使 用 选择 性 的 WHERE 
(这 应 该 非常 快 ) 获取 几 行 数据 的 查询 也 意味 着 要 关联 到 许多 服务 
器 ， 检 查 错 误 ， 以 及 在 应 用 里 将 搜索 结果 合并 在 一 起 。Sphinx 减 轻 了 
这 个 问题 的 痛苦 ， 因 为 所 有 必要 的 功能 都 在 后 台 搜 索 进 程 里 实现 了 。 


考虑 这 样 一 个 例子 : 有 一 个 1TB 大 小 的 表 ， 其 中 有 10 亿 篇 博客 文 
章 ， 通 过 用 户 ID 分 片 到 10 个 物理 MySQL 服 务 器 上 ， 这 样 给 定 用 户 的 文 
章 总 是 在 同一 台 服 务 器 上 。 只 要 查询 是 限制 在 单个 用 户 上 ， 一切 都 很 
好 : 我 们 根据 用 户 ID 先 选 定 服务 器 ， 然 后 照常 运作 。 


现在 假定 我 们 要 实现 一 个 归档 分 页 功能 来 显示 该 用 户 的 所 有 朋友 
发 表 的 文章 。 我 们 怎么 按 发 布 日 期 排序 显示 “其 他 sysbench 特 性 ”的 第 
981~1000 个 条 目 呢 ? 大 量 朋 友 的 数据 很 可 能 是 在 不 同 的 服务 器 上 。 如 
果 仅 有 10 个 朋友 ， 那 残 有 约 90% 的 可 能 会 用 到 8 台 以 上 服务 器 ， 如 果 是 
20 个 朋友 ， 这 个 可 能 性 就 提高 到 了 99%。 因 此 ， 对 于 大 多 数 查询 而 
言 ， 我 们 需要 关联 到 所 有 服务 器 。 更 糟糕 的 是 ， 我 们 还 要 从 每 台 服 务 


器 上 拉 1000 篇 文章 ， 然 后 在 应 用 程序 里 进行 排序 。 按 照 本 书 前 面 所 提 
供 的 建议 ， 我 们 将 数据 裁减 到 只 需要 文章 ID 和 时 间 戳 。 但 是 ， 仍 然 有 
10 000 条 记录 要 在 应 用 程序 里 排序 。 许 多 现代 脚本 语言 单 在 排序 这 一 
步骤 上 就 会 消耗 掉 大 量 的 CPU 时 间 。 除 此 以 外 ， 我 们 或 者 要 按 顺序 从 
每 个 服务 器 上 获取 结果 记录 XARRIS) ， 或 者 要 编写 一 些 代码 构造 
并 行 查 询 线程 (这 很 难 实现 和 维护 ) 。 


在 这 样 的 情形 下 ， 采 用 Sphinx 将 比重 新 发 明 轮子 显得 更 有 意义 。 
在 本 例 中 所 要 做 的 事情 就 是 建立 几 个 Sphinx 实 例 ， 从 每 个 表 里 映 射出 
经 常 访问 的 文章 属性 一 一 在 这 里 就 是 文章 ID、 用 户 ID 和 时 间 戳 ， 然 后 
在 主 Sphinx 实 例 上 查询 第 981 人 1000 条 记录 ， 并 按照 发 布 日 期 排序 ， 全 
部 算 起 来 大 概 是 3 行 代码 。 这 是 更 明智 的 扩展 方法 。 


染 构 概要 


Sphinx 是 一 个 独立 的 程序 集 。 两 个 主要 程序 如 下 。 


indexer 


这 个 程序 用 来 从 各 种 特定 的 资源 上 (例如 MySQL 的 查询 结 
R) 获取 文档 ， 并 据 此 创建 全 文 索 引 。 这 是 一 个 后 台 批 处 理 任 


务 ， 网 站 一 般 会 定时 运行 它 。 
searchd 


这 是 一 个 后 台 进 程 ， 用 于 查询 indexer 构 建 的 索引 。 它 为 应 用 
程序 提供 运行 时 支持 。 


Sphinx 的 发 布 包 里 还 包含 有 多 种 编程 语言 的 searchd 原 生 客 户 端 
API 〈 在 本 书写 作 时 ， 这 些 语 言 包括 PHP、Python、Perl、Ruby 和 
Java) ， 以 及 在 MySQL 5.0 及 以 上 版 本 中 作为 插件 式 存储 引擎 实现 的 
客户 端 SphinxSE。 这 些 API 和 SphinxSE 都 可 供 客 户 端 应 用 连接 到 
searchd， 然 后 把 查询 语句 传递 过 去 ， 最 终 取 回 搜索 结果 。 


每 一 个 Sphinx 全 文 索 引 都 可 以 比 作 数 据 库 里 的 一 个 表 ， 与 表 里 放 
置 的 一 行 行 数 据 不 同 的 是 ，Sphinx 索 引 包 含 的 是 文档 。 (Sphinx 也 有 
一 个 单独 的 数据 结构 一 一 多 值 属 性 ， 下 文 会 讲 到 。) 每 一 个 文档 都 有 
一 个 唯一 的 32 位 或 64 位 整数 标识 符 ， 取 自 数 据 表 里 的 索引 字段 ( 例 
如 ， 从 主键 列 中 取 ) 。 另 外 ， 每 一 个 文档 拥有 一 个 或 多 个 全 文字 段 
(每 一 个 都 对 应 于 数据 库 里 的 一 个 文本 字段 ) 和 数值 属性 。 就 像 一 个 
数据 表 一 样 ，Sphinx 索 引 在 所 有 文档 里 都 有 着 一 样 的 字段 和 属性 。 表 
F-1 显 示 了 数据 表 和 Sphinx 索引 的 相似 之 处 。 


表 F-1: 数据 库 结 构 和 相应 的 Sphinx 结 构 


数据 库 结构 Sphinx 结 构 


CREATE TABLE documents ( index documents 
id int(11) NOT NULL auto_increment, document ID 
title varchar(255), title field, 


full-text indexed 
content text, content field, 
full-text indexed 


group_id int(11), group_id 


attribute, sql_attr_uint 
added datetime, added attribute, 
sql_attr_timestamp 
PRIMARY KEY (id) 
) ; 


Sphinx 不 存储 数据 库 中 的 文本 字体 ， 只 使 用 它们 的 内 容 来 创建 一 
个 搜索 索 5|。 


安装 综述 


Sphinx 安 装 非常 直观 ， 一 般 包 括 如 下 步骤 。 


1. 从 源码 编译 程序 。 


$ configure && make && make install 


2. 创建 一 个 配置 文件 : 定义 数据 源 和 全 文 索 引 。 
3. 初始 索引 化 。 
4. 启动 searchd。 


在 这 之 后 ， 客 户 程序 即 拥有 查询 功能 。 


<?php 
include ( 'sphinxapi.php' ); 


$cl = new SphinxClient (); 


$res = $cl->Query ( 'test query', 'myindex' ); 
// use $res search result here 


?> 


唯一 还 没 做 的 事情 就 是 定时 运行 indexer 来 更 新 全 文 索 引 数 据 。 在 
重建 索引 的 时 候 ， searchd 当 前 正在 使 用 的 索引 还 是 全 部 可 以 使 用 的 : 
indexer 会 检测 到 索引 正在 使 用 ， 然 后 创建 一 个 “影子 ”索引 来 代替 。 在 
索引 创建 完 之 后 ， 它 会 通知 searchd 使 用 这 个 完成 的 副本 。 


全 文 索引 存储 在 文件 系统 中 〈 保 存 路 径 在 配置 文件 里 指定 ) ， 存 
储 为 一 种 特定 的 “整体 "形式 ， 这 种 形式 不 适合 做 增 量 更 新 。 通 党 的 更 
新 索引 的 方法 就 是 全 部 重建 。 这 个 问题 没有 看 起 来 那么 大 ， 原 因 有 以 
FJL 


创建 索引 的 速度 很 快 。 在 现在 的 硬件 设备 上 ，Sphinx 索 引 普 通 文 
本 (不 带 HTML 标 记 ) 的 速度 是 4 全 8MB/s。 

可 以 把 数据 分 割 到 几 个 索引 里 ， 下 一 小 节 里 会 讲 到 。 每 次 运行 
indexer 时 只 对 需要 更 新 的 那 部 分 数据 进行 索引 重建 。 

无 须 对 索引 做 “碎片 整理 一 一 它们 本 来 就 是 为 优化 IO 而 构建 的 ， 
这 能 提高 搜索 速度 。 

数值 属性 可 以 直接 更 新 ， 无 须 重建 全 部 索引 。 


在 未 来 的 版 本 里 ， 还 会 提供 一 个 额外 的 索引 后 端 ， 它 将 支持 实时 
的 索引 更 新 。 


典型 的 分 区 使 用 


下 面 详细 讨论 分 区 。 最 简单 的 分 区 模式 是 main+delta 方 法 ， 对 一 
个 文档 集 创建 两 个 索引 。main 索 引 全 部 文档 集 ， 而 delta 只 索引 自 上 次 
main 索 引 | 创建 之 后 发 生变 更 的 文档 。 


这 个 模式 与 许多 数据 变更 模式 完全 吻合 。 论 坛 、 博 客 、 电 子 邮 件 

和 新 闻 归 档 ， 以 及 垂直 索引 引擎 都 是 很 好 的 例子 。 那 些 存 储 库 的 大 部 

冷 数据 自 创建 后 从 不 更 新 ， 只 有 很 小 一 部 分 的 热 数据 经 常 改变 或 增 

加 。 这 意味 着 delta 索 引 很 小 并 且 可 以 在 需要 时 重建 (例如 ， 每 隔 1~15 
分 钟 一 次 ) 。 这 相当 于 只 对 新 插入 的 行 做 索引 。 


你 不 需要 重建 索引 来 改变 与 文档 关联 的 属 ' 
在 线 做 。 可 以 通过 简单 地 在 main 索 引 上 设置 “deleted” 特 性 来 标记 行 已 
删除 。 因 此 ， 可 以 在 main 索 引 中 对 文档 标记 这 个 属性 来 处 理 更 新 ， 然 
后 重建 delta 索 引 。 对 所 有 未 标记 为 “deleted” 的 文档 搜索 会 返回 正确 的 
结果 集 。 


注意 ， 索 引文 件 可 能 来 自任 何 SELECT 语 句 的 结果 ;不必 来 自 单 
个 SQL 表 。 对 SELECT 语句 没有 限制 。 这 意味 着 可 以 在 数据 库 中 建 索 
引 之 前 预 处 理 结 果 。 普 通 预 处 理 例子 包括 : 与 其 他 表 的 联接 ， 在 线 创 
建 额外 的 字段 ， 在 索引 时 排除 某 些 字段 ， 以 及 生成 一 些 值 。 


特别 的 功能 特性 


除 “ 仅 仅 ? 索 引 和 搜索 数据 库 内 容 外 ，Sphinx 还 提供 几 个 其 他 的 功 
能 。 下 面 是 其 中 最 重要 的 部 分 。 


。 搜索 和 排 位 算法 记录 词 的 位 置 ， 并 且 碍 询 阶段 接近 的 文档 内 容 ， 
也 会 被 计算 在 内 。 


可 以 把 数值 属性 绑 定 到 文档 中 ， 包 括 多 值 属 性 。 

。 可 以 按 属性 值 排序 、 过 滤 和 分 组 。 

。 可 以 创建 与 搜索 查询 关键 字 高 亮 的 文档 片段 。 

可 以 跨 多 台 机 器 做 分 布 式 搜 索 。 

可 以 优化 查询 ， 从 相同 的 数据 中 产生 几 个 结果 集 。 
。 可 以 从 MySQL 中 使 用 SphinxSE 来 访问 搜索 结果 。 

可 以 很 好 地 调节 Sphinx 对 服务 器 负载 的 影响 。 


我 们 在 前 面 已 经 涉及 了 其 中 部 分 特性 。 本 节 将 介绍 剩 下 的 几 个 特 
性 。 


近义词 排 位 


Sphinx 能 记 住 每 一 个 文档 内 词语 的 位 置 ， 就 像 其 他 开源 全 文 检索 
系统 那样 。 但 与 它们 不 同 的 是 ， 它 使 用 位 置 对 匹配 度 进 行 排序 ， 返 回 
更 相 天 的 结果 。 


有 许多 因素 会 影响 到 文档 的 最 终 排 位 。 为 了 计算 排 位 ， 其 他 许多 
系统 只 使 用 了 关键 字 的 频 度 : 每 一 个 关键 字 的 出 现 次 数 。 几 乎 被 所 有 
全 文 检 索 系 统 使 用 的 经 典 的 BM25 权 重 函 数 忆 就 是 把 更 多 的 权重 分 给 这 
样 一 些 词语 ， 它 们 或 者 在 特定 的 被 检索 文档 里 常常 出 现 ， 或 者 很 少 在 
整个 文档 集 里 出 现 。BM25 返 回 的 结果 通常 就 是 最 终 的 排 位 值 。 


与 之 不 同 ，Sphinx 也 计算 查询 短语 的 近似 度 ， 就 是 文档 内 包含 的 
查询 子 短语 的 最 大 长 度 ， 以 词语 为 计数 单位 。 举 例 来 说 ， 用 短语 *John 
Doe Jr" 在 带 有 文本 “John Black, John White Jr, and Jane Dunne” 的 文档 里 
搜索 时 ， 会 产生 一 个 1 的 短语 近似 度 ， 因 为 按 碍 询 序列 ， 没 有 两 个 词语 


一 同 出 现在 文档 里 。 如 果 文 档 的 文本 是 “Mr. John Doe Jr and friends” , 
那 就 是 3 的 近似 度 ， 因 为 这 三 个 查询 词语 依次 出 现在 文档 里 。 而 文本 
“John Gray, Jane Doe Jr” 会 生成 2 的 近似 度 ， 这 归功 于 “Doe Jr” 查 询 子 短 
语 。 


在 默认 情况 下 ，Sphinx 首 先是 用 短语 近似 度 排序 的 ， 其 次 才 是 经 
典 的 BM25。 这 意味 着 逐 字 的 查询 引用 可 以 保证 非常 靠 前 ， 而 由 一 个 
单独 的 词语 引用 刚好 在 它们 下 面 ， 等 等 。 


短语 近似 度 是 何 时 以 及 如 何 影响 结果 的 呢 ? 设想 要 在 1 000 000 页 
的 文本 里 搜索 短语 “To be or not to be”. Sphinx 会 将 逐 字 引用 的 页 面 放 
在 搜索 结果 的 最 前 面 ， 而 其 他 基于 BM25 的 系统 会 首先 返回 那些 包含 
了 最 多 的 *to”、“be” “or 和 “ot” 的 页 面 一 一 那些 包含 了 一 个 确切 引用 
的 页 面 会 只 因 里 面 的 “to”* 不 够 多 ， 就 被 埋没 在 搜索 结果 的 深 处 了 。 


当今 许多 主流 的 Web 搜 索引 擎 用 关键 字 位 置 对 结果 进行 排 位 也 是 
一 样 的 原理 。 在 Google 上 搜索 一 个 短语 ， 它 就 会 把 最 完美 或 接近 完美 
包含 匹配 短语 的 文档 放 在 结果 的 最 上 面 ， 后 面 是 “ 词 袋 ”文档 。 


然而 ， 分 析 关 键 词 的 位 置 会 需要 额外 的 CPU 时 间 ， 有 时 可 能 会 
于 性 能 考虑 而 跳 过 这 一 步 。 在 有 些 情况 下 ， 短 语 排 位 也 会 产生 不 受 欢 
迎 的 、 出 乎 意料 的 结果 。 例 如 ， 在 云 里 搜索 标签 时 没有 关键 子 位 置 会 
更 好 一 些 : 要 查询 的 tag 在 文档 里 是 否 相 邻 也 疫 什么 区 别 。 


为 了 顾及 灵活 性 ，Sphinx 提 供 了 排 位 模式 的 选择 。 除 了 默认 的 近 
似 度 加 BM25 之 外 ， 还 能 选用 多 种 其 他 类 型 的 方法 ， 包 括 只 有 BM25 权 
值 的 、 完 全 禁用 权 值 的 (如 果 不 是 使 用 排 位 做 排序 ， 它 能 提供 很 好 的 
优化 ) ， 等 等 。 


支持 属性 


一 个 文档 都 可 以 包含 无 限 数目 的 数值 属性 。 属 性 是 用 户 指定 
的 ， 能 够 根据 特定 任务 的 需要 包含 任何 额外 的 信息 。 相 应 的 例子 包 
括 : 一 篇 博客 文章 的 作者 ID、 明 细 表 里 一 个 项 目的 价格 、 一 个 分 类 
ID， 等 等 。 


属性 依靠 额外 的 过 滤 、 排 序 和 对 搜索 结果 进行 分 组 ， 以 提高 全 文 
搜索 的 效率 。 在 理论 上 ， 它 们 可 以 被 存储 在 MySQL 里 ， 而 在 执行 搜索 
时 再 取出 来 。 但 在 实际 应 用 中 ， 如 果 全 文 检索 要 从 MySQL 里 定位 几 百 
或 几 千 行 数 据 (这 也 不 算 多 ) ， 检索 它们 将 慢 得 不 可 接受 。 


Sphinx 支 持 两 种 存储 属性 的 方式 : 内 联 到 文档 列表 或 者 放 在 外 部 
单独 的 文件 里 。 内 联 要 求 所 有 属性 值 要 在 各 索引 里 存储 多 次 ， 每 当 有 
文档 ID 存 入 就 会 有 一 次 。 这 会 增加 索引 的 大 小 ， 还 会 提升 VO 数量 ,但 

会 减少 RAM 的 使 用 。 在 外 部 对 属性 进行 排序 ， 需 要 在 searchd 启 动 时 
把 它们 预 加 载 到 RAM 里 。 


属性 通常 都 能 被 放 入 RAM 中 ， 因 此 ， 常 见 的 做 法 就 是 把 它们 存储 
在 外 部 。 这 可 以 使 过 滤 、 排 序 和 分 组 更 加 快速 ， 因 为 访问 这 些 数 据 就 
相当 于 是 一 次 快速 的 内 存 内 查找 。 并 且 ， 只 有 存放 于 外 部 的 属性 才能 
在 运行 时 被 更 新 。 内 联 存 储 应 该 只 在 没有 足够 的 空间 RAM 来 存储 属性 
数据 时 使 用 。 


Sphinx 也 支持 多 值 属性 (MVA) 。MVA 的 内 容 由 一 个 任意 长 的 整 
数值 列表 组 成 ， 每 个 整数 值 对 应 一 个 文档 。 那 些 很 好 地 利用 了 MVA 的 
例子 有 标签 ID 列表 、 产 品 的 分 类 和 访问 控制 列表 。 


wits 


在 全 文 搜索 引擎 里 拥有 对 属性 值 的 访问 权 可 以 让 Sphinx 在 搜索 时 
尽 可 能 早 地 过 滤 和 剔除 候选 匹配 项 。 从 技术 上 说 ， 过 渡 检 查 发 生 在 校 
验 完 文档 是 否 包含 了 所 有 需要 的 关键 字 之 后 ， 但 又 在 某 个 计算 量 很 大 
的 计算 过 程 (例如 排名 ) 之 前 。 因 为 有 了 这 些 优 化 ， 使 用 Sphinx 把 过 
滤 和 排序 整合 到 全 文 搜索 里 要 比 在 Sphinx 中 搜索 而 在 MySQL 中 过 滤 结 
果 快 10 一 100 倍 。 


Sphinx 支持 两 种 类 型 的 过 滤 ， 这 与 SQL 里 简单 的 WHERE 条 件 很 相 
似 。 


。 一 个 属性 值 匹配 一 个 特定 范围 内 的 值 ( 跟 BETWEEN 子 句 或 数值 
比较 相似 ) 。 
。 一 个 属性 值 匹配 一 个 特定 的 值 集合 〈 跟 INO 列 表 相 似 ) © 


如 果 过 滤器 有 固定 数量 的 值 《用 “集合 "过 滤器 代替 “范围 > 过滤 
as) ， 并 且 这 些 值 是 可 选择 的 ， 那 么 ， 用 “ 伪 关 键 字 ”替换 掉 整 型 值 ， 
并 用 全 文 内 容 而 非 属 性 的 方式 索引 ， 这 样 是 很 有 意义 的 。 这 同样 适用 

普通 的 数值 属性 和 多 值 属性 。 在 下 文 里 我 们 会 看 到 一 些 天 于 如 何 去 
做 的 例子 。 


Sphinx 能 够 使 用 过 滤器 来 优化 全 扫描 。 它 能 记 住 在 一 小 段 连续 的 
行 块 《默认 是 128 行 ) 中 的 最 小 和 最 大 属性 值 ， 根 据 过 滤 条 件 很 快 地 丢 
弃 挤 整个 块 。 行 是 按照 文档 ID 升序 存储 ， 因 此 ， 这 个 优化 工作 最 适合 
那些 跟 ID 关 联 紧密 的 列 。 例 如 ， 如 果 有 一 个 行 插入 时 间 戳 ， 它 会 随 着 
ID 一 起 增长 ， 那 么 ， 在 这 个 时 间 戳 上 做 融 有 过 滤 的 全 扫描 会 非 党 快 。 


SphinxSE 可 插 拔 存 储 引 擎 


接收 到 来 自 Sphinx 的 全 文 搜索 结果 之 后 ， 几 乎 总 会 有 一 些 涉 及 
MySQL 的 额外 工作 要 做 一 一 从 最 低 限度 来 讲 ，Sphinx 索 引 里 没有 存储 
的 文本 列 的 值 必须 从 MySQL 里 取得 。 因 此 ， 经 常 需要 把 Sphinx 的 搜索 
结果 和 其 他 MySQL 表 联接 。 


尽管 可 以 把 搜索 结果 里 的 文档 ID 写 在 一 条 查询 语句 中 发 送 给 
MySQL， 但 是 ， 这 种 方法 会 导致 既 不 太 简洁 也 不 太 高 效 的 代码 。 对 于 
量 非常 大 的 场景 ， 应 该 考虑 使 用 SphinxSE， 这 是 一 个 可 编译 到 MySQL 
5.0 或 更 新 的 版 本 里 的 可 插 拔 存储 引擎 ， 也 可 作为 一 个 插件 加 载 到 
MySQL 5.1 或 更 新 的 版 本 里 。 


SphinxSE 可 以 让 程序 员 从 MySQL 里 面 查询 searchd 和 访问 搜索 结 
果 。 用 法 非常 简单 ， 只 要 在 创建 表 时 加 上 ENGINE=SPHINX 子 句 (还 
有 一 个 可 选 的 CONNECTION 子 句 ， 用 于 Sphinx 服 务 器 不 在 默认 路 径 时 
重新 定位 服务 器 ) ， 然 后 就 可 以 在 表 上 运行 查询 了 。 


mysql> CREATE TABLE search_table ( 
-> id INTEGER NOT NULL, 
-> weight INTEGER NOT NULL, 
-> query VARCHAR( 3072) NOT NULL, 
-> group_id INTEGER, 
-> INDEX(query ) 
-> ) ENGINE=SPHINX 


CONNECTION="Sphinx://localhost:3312/test"; 


Query OK, © rows affected (0.12 sec) 


mysql> SELECT $ FROM search_table WHERE 
query='test;mode=all' \G 
炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1 row 


HR RIOR II KAIRIE REE 
id: 123 
weight: 1 
query: test;mode=all 
group_id: 45 


1 row in set (0.00 sec) 


每 个 SELECT 以 WHERE 子 句 中 的 query 列 的 方式 传递 给 Sphinx 查 
if], Sphinx searchd 服 务 器 返回 查询 结果 ， 然 后 SphinxSE 存储 引擎 会 把 
它们 翻译 成 MySQL 的 结果 返回 给 该 SELECT 语句 。 


其 中 的 查询 可 能 会 包含 JOIN ， 把 别 的 存储 引擎 上 的 其 他 表 联 接 进 
来 。 


SphinxSE 支 持 大 部 分 原本 在 API 里 才 可 用 的 搜索 选项 。 你 可 以 通 
过 插入 额外 子 句 到 查询 字符 串 的 方式 设 定 类 似 过 滤 和 范围 限制 选项 。 


mysql> SELECT i FROM search_table WHERE 


query='test;mode=all1; 


-> filter=group_id,5,7,11;maxmatches=3000' ; 


通过 API 返 回 的 关于 每 一 个 查询 和 每 一 个 词语 的 统计 信息 也 可 以 
用 SHOW STATUS 访问 。 


mysql> SHOW ENGINE SPHINX STATUS \G 


炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 类 1 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


Type: SPH INX 
Name: stats 


Status: total: 3, total found: 3, time: 8, words: 1 


类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 2 row 


类 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 


Type: SPHINX 
Name: words 
Status: test:3:5 


2 rows in set (0.00 sec) 


甚至 在 使 用 SphinxSE 的 时 候 ， 经 验 法 则 仍然 允许 searchd 执 行 排 
序 、 过 滤 和 分 组 一 一 也 就 是 说 ， 把 所 有 需要 的 子 句 加 到 查询 字符 串 
里 ， 而 不 是 使 用 WHERE、ORDER BY 和 GROUP BY。 这 对 于 WHERE 
条 件 来 说 尤为 重要 ， 其 原因 是 SphinxSE 仅 仅 是 searchd 的 一 个 客户 端 ， 
而 不 是 一 个 全 能 的 内 腐 搜索 库 。 因 此 ， 你 还 是 要 把 所 有 东西 都 传递 给 
Sphinx 引 | 擎 以 获得 最 好 的 性 能 表现 。 


高 级 性 能 控制 


索引 和 搜索 操作 都 会 显著 地 加 重 搜索 服 务 器 或 数据 库 服 务 器 的 负 
担 。 符 运 的 是 ， 有 很 多 设置 可 用 以 限制 来 自 Sphinx 的 负载 。 


indexer 的 查询 会 引发 不 期 望 的 数据 库 端 负 载 ， 它 们 或 者 是 因为 使 
到 的 锁 彻 底 地 减 慢 了 MySQL 的 运转 速度 ， 或 者 只 是 因为 出 现 得 太 快 
而 与 其 他 并 发 查询 竞争 资源 。 


第 一 个 例子 就 是 MyISAM 的 一 个 声名 狼藉 的 问题 ， 当 长 时 间 的 读 
锁定 表 时 ， 会 影响 到 其 他 后 续 的 读 和 写 一 一 你 不 能 简单 地 在 生产 服务 
器 上 执行 SELECT * FROM big_table， 因 为 会 有 干扰 其 他 所 有 操作 的 风 
险 。 为 了 绕 开 这 个 问题 ，Sphinx 提 供 了 区 间 查 询 。 与 配置 单个 巨大 查 
询 不 同 ， 你 可 以 指定 一 个 可 以 快速 计算 可 索引 的 行 区 间 的 查询 ， 以 及 
另外 一 个 以 很 小 的 块 逐 批 往外 拉 数 据 的 查询 。 


sql_query_range = SELECT MIN(id),MAX(id) FROM documents 
sql_range_step = 1000 
sql_query = SELECT id, title, body FROM documents \ 


WHERE id>=$start AND id<=$end 


这 个 特性 在 对 MyISAM 表 索引 的 时 候 非常 有 用 ， 但 也 应 该 考虑 到 
使 用 InnoDB 表 的 情况 。 哩 然 InnoDB 在 运行 一 个 大 数据 量 SELECT 的 时 
候 不 会 锁定 表 ， 也 不 会 延误 其 他 查询 的 执行 ， 但 是 ， 由 于 它 的 MVCC 
架构 ， 它 还 是 会 使 用 到 很 多 的 机 器 资源 。1 000 个 多 版 本 的 事务 ， 每 个 
事务 会 涉及 1 000 行 数据 ， 总 开销 也 小 于 单独 一 个 要 长 时 间 运 行 的 涉及 
100 万 行 数据 的 事务 。 


第 二 种 加 重负 载 的 可 能 发 生 在 indexer 能 够 比 MySQL 更 快 地 处 理 数 
据 时 。 在 这 样 的 情形 下 ， 也 应 该 使 用 范围 查询 。sql_ranged_throttle 选 
项 会 强制 indexer 在 后 续 的 查询 步骤 之 间 休 眠 给 定 的 一 段 时 间 (以 毫秒 
计算 ) ， 这 虽然 会 增加 索引 建立 的 时 间 ， 但 也 会 减轻 MySQL 的 负担 。 


如 果 有 足够 兴趣 ， 你 还 可 以 看 一 个 特别 的 和 案例， 配置 Sphinx 以 达 
到 相反 效果 : 为 了 缩短 索引 建立 时 间 ， 就 将 更 多 的 负载 加 到 MySQL 上 
面 。 当 indexer 和 数据 库 之 间 的 连接 是 100MB,， 行 都 被 很 好 地 压缩 时 
(典型 的 文本 数据 ) ，MySQL 的 压缩 协议 能 缩短 整体 的 索引 时 间 。 随 
之 而 来 的 是 另外 一 个 开销 增加 了 : 为 了 压缩 和 解压 缩 网 络 上 传输 的 行 
数据 ， MySQL 端 和 indexer 端 各 自 都 会 使 用 到 更 多 的 CPU 时 间 。 但 是 ， 
整个 索引 时 间 因 为 减少 了 网 络 数据 流量 而 能 够 缩短 20% 人 30%。 


集群 上 的 搜索 偶尔 也 会 遇 到 过 载 问题 ， 因 此 ，Sphinx 提 供 了 一 些 
方法 以 避免 searchnd 跑 飞 。 


首先 ，max_children 选 项 可 以 简单 地 限制 一 下 能 够 并 发 运行 的 查询 
数量 ， 当 达到 极限 时 告诉 客户 端 重 试 。 


其 次 ， 还 有 查询 级 别 的 限制 。 可 以 设 定 查 询 运 行 的 时 候 ， 或 者 是 
在 找到 预定 个 数 的 匹配 项 时 就 停止 ， 或 者 是 用 完 指定 长 度 时 间 之 后 就 
停止 。 这 两 个 条 件 分 别 通过 调用 SetLimits0 和 SetMaxQueryTime(O API 
来 实现 。 这 是 针对 每 一 个 查询 设置 的 ， 所 以 ， 可 以 确保 更 重要 的 查询 
总 是 能 够 彻底 完成 。 


最 后 ， 定 时 运行 indexer 会 引起 额外 IO 的 突 增 ， 随 之 会 影响 到 
searchd 间 歇 性 地 速度 减 慢 。 为 了 防止 这 种 情况 发 生 ，Sphinx 里 有 相应 
的 选项 来 限制 ndexer 的 磁盘 IO。max_iops 强 加 了 两 次 IO 操作 之 间 的 


最 小 延迟 时 间 ， 以 确保 每 一 秒 里 不 会 有 超过 max_iops 的 磁盘 操作 会 被 
执行 。 但 是 ， 有 时 一 个 单独 的 操作 也 会 很 占 时 间 ， 比 如 有 一 个 100MB 
数据 量 的 read0 调 用 。max_iosize 选 项 会 处 理 这 种 情况 ， 它 可 以 保证 每 
一 次 磁盘 读 或 者 写 的 长 度 都 被 限制 在 指定 的 范围 之 内 。 更 大 的 操作 会 
被 自动 地 分 解 成 小 型 操作 ， 然 后 ， 这 些小 型 的 操作 由 max_iops 设 置 控 
制 。 


实际 应 用 案例 


每 个 描述 的 特性 都 可 以 在 产品 部 署 中 成 功 找到 。 下 面 的 小 节 回 顾 
了 几 个 现实 的 Sphinx 部 署 ， 简 要 描述 了 网 站 的 情况 和 一 些 实现 细节 。 


Mininova.org 上 的 全 文 搜索 


Mininova (http:/www.mininova.org) 是 一 个 流行 的 BT 种 子 搜索 引 
擎 ， 它 清楚 地 展示 了 如 何 “ 仪 仪 ” 优 化 全 文 检 索 。Sphinx 替 代 了 几 个 基 
于 MySQL 主 从 复制 的 备 库 内 建 的 全 文 索引 的 MySQL ， 因 为 它们 不 能 
很 好 地 处 理 负载 。 替 换 之 后 ， 搜 索 服 务 器 负载 很 轻 ;) 当前 平均 负载 在 
0.3~04。 


数据 库 规模 和 负载 量 如 下 。 


网 站 的 数据 库 很 小 ， 大 概 30 万 ~50 万 条 记录 ，300MB~500MB 索 引 
量 。 
网 站 的 负载 非常 高 ; 在 写作 本 书 的 时 候 每 天 大 约 800 万 ~1000 万 次 


查询 。 


数据 绝 大 部 分 是 由 用 户 提 供 的 文件 名 ， 常 常 没有 合适 的 标记 符 
号 。 因 为 这 个 原因 ， 采 用 了 前 缀 索引 而 不 是 整 词 索 5|。 结 果 索 引 比 不 
这 样 做 要 大 好 几 倍 ， 但 仍然 足够 小 ， 可 以 快速 地 构建 ， 并 且 数 据 可 以 
高 效 地 缓存 。 


对 1 000 个 最 频繁 的 查询 的 搜索 结果 在 应 用 端 缓存 起 来 。 总 查询 中 
有 大 概 20%~30% 由 缓存 提供 服务 。 由 于 “长 尾 ” 查 询 分 布 ， 组 存 再 大 一 
些 并 不 会 起 太 多 作用 。 


为 了 高 可 用 ， 网 站 使 用 两 个 服务 器 和 一 个 完整 的 全 文 索引 复制 服 
务 器 。 索 引 每 隔 几 分 钟 从 头 重 建 。 建 索引 耗 时 小 于 一 分 钟 ， 因 此 构建 
更 复杂 的 模式 没有 意义 。 


下 面 是 从 这 个 案例 中 学 到 的 : 


。 在 应 用 中 缓存 结果 非常 有 帮助 。 

。 巨大 的 缓存 可 能 没有 必要 ， 甚 至 对 繁忙 的 应 用 也 是 如 此 。 只 需要 
1000~10000 个 条 目 就 足够 了 。 

。 对 于 近 1GB 大 小 的 数据 库 ， 简 单 周 期 性 地 重建 索引 而 不 是 创建 更 
复杂 的 模式 是 没有 问题 的 ， 即 使 对 于 繁忙 的 网 站 也 是 如 此 。 


BoardReader.com 上 的 全 文 搜索 


Mininova 是 个 负载 格外 高 的 项 目 案例 数据 量 不 是 太 多 ， 但 有 
许多 对 数据 的 查询 。BoardReader (http:/www.boardreadercom) 恰好 
相反 : 一 个 论坛 搜索 引擎 ， 在 非常 大 的 数据 集中 执行 非常 少量 的 查 
询 。Sphinx 替 代 了 商业 的 全 文 搜索 引擎 ， 对 1GB 的 数据 集合 每 次 查询 


将 需 10s。Sphinx 可 使 BoardReader 在 数据 量 和 查询 的 吞吐 量 上 很 好 地 扩 


。 在 数据 库 中 有 10 亿 个 文档 和 1.5TB 的 文本 。 
。 有 大 概 50 万 个 页 面 视 图 ， 每 天 的 查询 量 在 70 万 ~100 万 。 


在 写作 本 书 的 时 候 ， 搜 索 集群 由 6 台 服 务 器 组 成 ， 每 台 有 4 个 逻辑 
CPU (两 个 Xeon 双 核 ) ， 有 16GB 的 RAM 和 0.5TB 的 磁盘 空间 。 数 据 库 
本 身 存储 在 一 个 分 开 的 集群 上 。 搜 索 集群 只 用 来 做 索引 和 搜索 。 


6 台 服 务 器 中 每 台 有 4 个 searchd 实 例 ， 因 此 所 有 4 个 核 都 被 使 用 。4 
个 实例 其 中 之 一 聚集 了 其 他 三 个 上 的 结果 。 总 共 24 个 searchd 实 例 。 数 
据 在 它们 中 间 平 均 分 布 。 每 个 searchd 副 本 携带 几 个 索引 ， 大 概 超过 总 
数据 的 /24 (大 约 60GB) o 


来 自 6 个 “第 一 层 ”searchd 节 点 的 搜索 结果 由 另外 一 个 运行 在 Web 服 
务 器 前 端的 searchd 实 例 所 聚集 。 这 个 实例 只 携带 几 个 纯 分 布 的 索引 ， 
指向 6 个 搜索 集群 服务 器 ， 但 本 地 并 没有 数据 。 


为 什么 每 个 节点 上 要 有 4 个 searchd 实 例 ? 为 什么 不 是 每 个 服务 器 
上 只 一 个 searchd 实 例 ， 配 置 它 运 载 4 个 索引 块 ， 自 己 和 自己 通信 ， 就 
像 远 程 服务 器 那样 来 利用 多 核 CPU， 一 如 我 们 之 前 建议 的 那样 ? 有 四 
个 实例 而 不 是 一 个 有 它 的 好 处 。 首 先 ， 它 减少 了 启动 时 间 。 有 几 个 GB 
的 属性 数据 需要 预先 加 载 到 RAM 中 ; 在 同一 时 间 局 动 几 个 后 台 进 程 可 
以 并 行 执行 。 其 次 ， 这 可 增加 可 用 性 。 在 searchd 失 败 或 更 新 的 情形 
下 ， 整 个 索引 中 只 有 1/24 不 可 访问 ， 而 不 是 1/6。 


在 搜索 集群 的 24 个 实例 里 ， 我 们 使 用 基于 时 间 的 分 片 来 进一步 减 
少 负 载 量 。 许 多 查询 只 需 运 行 在 最 近 的 数据 之 上 上， 因此， 数据 可 以 被 
分 成 3 个 不 相交 的 索引 集 : 最 近 一 个 星期 的 数据 、 最 近 3 个 月 的 数据 和 
全 部 数据 。 这 些 索 引 分 布 在 每 个 实例 所 在 服务 器 的 几 块 物理 磁盘 上 。 
通过 这 个 方法 ， 每 个 实例 都 拥有 了 自己 的 CPU 和 物理 磁盘 驱动 器 ， 且 
互 不 干扰 。 


本 地 的 cron 任 务 会 定时 更 新 索引 ， 跨 网 络 从 MYSQL 上 拉 数 据 ， 但 
we ATE ASS BIE AS Fo 


使 用 几 块 明确 独立 的 “ 裸 ?磁盘 被 证 明快 于 单独 的 RAID 卷 。 裸 磁盘 
能 够 控制 哪 一 些 文件 存储 到 哪 块 物理 磁盘 上 ， 而 在 RAID 里 却 不 一 样 ， 
控制 器 将 决定 哪 一 个 数据 块 存储 在 哪 一 块 物理 磁盘 上 。 裸 磁盘 也 能 保 
证 在 不 同 的 索引 块 上 充分 使 用 并 行 WO， 但 基于 RAID 的 并 发 查询 仍然 
受制 于 MO 层级 。 我 们 在 此 处 选择 的 是 没有 元 余 的 RAID 0， 这 是 因为 我 
们 不 关心 磁盘 故障 ; 我 们 可 以 在 搜索 节点 很 方便 地 重建 索引 。 当 需要 
提高 可 靠 性 时 ， 也 可 以 使 用 几 个 RAID 1 (镜像 ) 卷 提 供 跟 裸 盘 相同 的 
吞吐 量 。 


从 BoardReader 那 里 了 解 到 的 另 一 个 有 趣 的 事情 是 Sphinx 版 本 升级 
是 如 何 执 行 的。 显然 ， 整 个 集群 是 不 可 能 停 掉 的 ， 因 此 ， 向 后 兼容 非 
党 重要。 幸运 的 是 ，Sphinx 提 供 了 这 个 功能 新 版 本 的 searchd 一 般 
都 能 读 出 旧版 本 的 索引 文件 ， 也 总 能 跨 网 络 跟 旧 的 客户 端 通信 。 要 注 
意 的 是 第 一 层 上 用 来 聚集 搜索 结果 的 节点 对 于 第 二 层 节 点 而 言 就 像 客 
户 端 ， 而 由 第 二 层 节点 执行 实际 的 大 多 数 搜索 。 所 以 ， 第 二 层 上 的 节 
点 首先 升级 ， 然 后 是 第 一 层 上 的 节点 ， 最 后 才 是 web 前 端 。 


在 本 例 中 学 到 的 经 验 如 下 。 


。 对 于 超大 型 效 据 库 的 格言 是 : DA, DA, DA, HAT. 
。 在 大 规模 的 搜索 应 用 里 ， 组 织 searchd 为 多 层 树 状 结构 。 
。 尽 可 能 地 针对 全 部 数据 的 一 小 部 分 建立 优化 的 索引 。 

。 明确 地 将 文件 映射 到 磁盘 而 不 是 依靠 RAID 控 制 器 。 


Sahibinden.com 对 SELECT 的 优化 


Sahibinden (http://www.sahibinden.com) 是 土耳其 一 家 领先 的 在 线 
拍卖 网 站 ， 存 在 着 大 量 的 性 能 问题 ， 包 括 全 文 搜 索性 能 。 在 部 署 了 
Sphinx 并 对 查询 做 了 一 些 分 析 之 后 ， 我 们 发 现 Sphinx 高 频 执行 应 用 相 
天 的 过 滤 和 查询， 要 比 MySQL 快 许多 一 一 即使 在 MySQL 中 有 对 相关 列 
的 索引 。 另 外 ， 运 用 Sphinx 于 非 全 文 搜索 时 ， 可 产生 易于 编写 和 支持 
的 统一 的 应 用 代码 。 


MySQL 的 表现 不 佳 是 因为 每 个 单独 列 的 选择 性 不 足以 明显 地 缩小 
搜索 空间 。 事 实 上 ， 要 创建 和 维护 所 有 需要 的 索引 几乎 不 可 能 ， 因 为 
有 太 多 的 列 需要 它们 。 产 品 信息 表 大 约 有 100 个 列 ， 从 技术 上 讲 ，Web 
应 用 可 能 使 用 任 一 列 来 过 滤 或 排序 。 


在 这 个 “热门 ”的 产品 表 上 的 插入 和 更 新 都 是 龟 速 ， 因 为 有 太 多 的 
索 5| 需 要 随 之 更 新 。 


基于 这 些 原因 ， 要 应 付 产 品 信 息 表 上 的 所 有 SELECT 查询 ， 而 不 
仅仅 是 全 文 搜索 查询 ， Sphinx 就 是 一 个 自然 的 选择 。 


网 站 数据 库 的 大 小 和 负载 量 如 下 。 
。 数据 库 里 包含 了 大 约 400 000 行 记录 ，500MB 数 据 。 


。 负载 量 大 约 是 每 天 300 万 个 查询 。 


为 了 模拟 普通 的 审 WHERE 条 件 的 SELECT 查询 ，Sphinx 在 建 索 引 
过 程 中 把 一 些 特 别 的 关键 字 写 在 全 文 索引 里 。 这 些 关 键 字 都 形 如 _ 
_CAIN___ ， 这 里 的 N 可 以 用 相应 的 分 类 ID 来 代替 。 这 个 替代 发 生 在 
MySQL 查 询 中 运行 带 CONCATO 函 数 的 索引 之 时 ， 因 此 源 数 据 不 会 被 


修改 。 


索引 需要 尽 可 能 频繁 地 重建 。 我 们 是 固定 每 分 钟 重建 一 次 。 在 多 
CPU 环境 里 每 次 重建 的 时 间 是 9 一 15s， 因 此 ， 早 先 讨论 过 的 main+delta 
方案 是 不 需要 的 。 


实践 证 明 ，PHP API 在 解析 带 有 大 量 属性 的 结果 集 时 ， 会 花费 相 
当 数 量 的 时 间 (每 个 查询 大 约 7~~9ms) 。 通 常 ， 这 个 开销 不 会 构成 问 
题 ， 因 为 全 文 搜索 的 开销 ， 特 别 是 在 大 数据 集 上 执行 时 ， 会 高 于 这 个 
解析 。 为 了 能 减少 这 个 因素 的 影响 ， 索 引 被 分 隔 成 一 对 对 的 :“ 轻 量 ” 
的 有 34 个 常用 的 属性 ， 而 “完整 "的 有 全 部 99 个 属性 。 


其 他 可 能 的 解决 办 法 是 使 用 SphinxSE 或 者 实现 一 个 能 够 把 特定 的 
列 读 到 Sphinx 里 的 功能 。 然 而 ， 使 用 两 个 索引 的 方法 是 目前 实现 起 来 
最 快 的 ， 时 间 也 是 重要 因素 。 


以 下 是 我 们 从 这 个 案例 里 学 到 的 经 验 。 


有 时 ，Sphinx 上 的 全 扫描 的 执行 效率 要 好 过 MySQL 的 索引 读 取 。 
对 于 选择 性 条 件 ， 用 * 伪 关键 字 ” 代 替 属 性 过 滤 之 后 ， 全 文 搜索 引 
擎 能 做 更 多 的 工作 。 

脚本 语言 里 的 API 在 某 些 极端 但 现实 的 条 件 下 可 能 会 成 为 性 能 瓶 
Flo 


BoardReadercom 对 GROUP BY 的 优 
化 


对 BoardReader 服 务 的 改进 需要 统计 起 链接 数 ， 并 且 要 根据 关联 数 
据 创 建 不 同 的 报表 。 例 如 ， 报 表 之 一 就 是 要 显示 出 最 近 一 个 星期 来 链 
接 数 排 在 最 前 面 的 N 个 二 级 域名 。 另 外 一 个 统计 链接 到 指定 站 点 例如 
YouTube 的 最 前 面 N 个 二 级 和 三 级 域名 。 用 来 创建 这 些 报表 的 查询 具有 
下 列 这 些 常见 特征 。 


。 它们 总 是 按 域 来 分 组 的 。 

。 它们 按 每 个 组 里 的 链接 数 排序 ， 或 者 是 以 每 个 组 里 的 唯一 域名 的 
EPR EN 

。 它们 要 处 理 大 量 的 数据 (接近 几 百 万 行 记录 ) ， 但 是 ， 最 后 生成 
的 带 有 最 佳 分 组 的 结果 集 往往 又 很 小 。 

。 近似 的 结果 也 能 接受 。 


在 原型 测试 环节 里 ，MySQL 大 概 伦 了 300s 来 执行 这 些 查询 。 理 论 
上 ， 通 过 数据 分 片 技术 ， 把 它们 分 拆 到 各 个 服务 器 执行 ， 再 在 应 用 里 
用 人 工 方式 聚合 查询 结果 ， 还 可 能 将 这 些 查 询 的 时 间 优 化 到 10s 左 右 。 
但 是 ， 这 需要 构建 一 个 复杂 的 架构 ， 即 使 分 片 的 实现 也 远 不 是 那么 直 
接 明 了 。 


因为 已 经 成 功 地 使 用 Sphinx 对 搜索 负载 进行 过 分 布 式 处 理 ， 所 
以 ， 我 们 决定 还 使 用 Sphinx 来 实现 一 个 近似 的 分 布 式 的 GROUP BY。 
这 就 要 求 在 建立 索引 之 前 预 处 理 这 些 数据 ， 把 所 有 感 兴趣 的 子 串 转换 
为 单独 的 “词语 >?。 以 下 就 是 一 个 示例 URL 人 在 预 处 理 前 后 的 样子 。 


source_url = http://my.blogger .com/my/best - post. php 
processed_url = my$blogger$com, blogger$com, 
my$blogger$com$my, 
my$blogger$com$my$best, 
my$blogger$com$my$best$post . php 


美元 符号 ($) MIMENURLA ATA ABR, MARE L 
作 在 任何 URL 部 分 ， 域 或 者 路 径 。 这 种 预 处 理 能 析 取 所 有 “ 感 兴趣 ”的 
子 串 成 为 单独 的 关键 字 ， 这 样 搜索 起 来 是 最 快 的 。 从 技术 上 说 ， 我 们 
可 以 采用 短语 查询 或 者 前 缀 索引 ， 但 那些 都 会 导致 更 大 的 索引 ， 速 度 
也 更 慢 。 


链接 是 在 构建 索引 时 预 处 理 的 ， 使 用 了 特定 的 MySQL UDF. X 
个 任务 里 ， 我 们 还 定制 了 一 个 计算 唯一 性 值 的 功能 用 来 加 速 Sphinx。 
在 此 之 后 ， 我 们 就 能 把 查询 全 部 移 到 搜索 集群 里， 简单 地 分 发 ， 同 时 
明显 减少 查询 延迟 。 


效 据 库 的 大 小 和 负载 量 如 下 。 


。 里 面 约 有 1.5 亿 ~2 亿 行 记 录 ， 预 处 理 之 后 会 生成 50~100GB 数 据 。 
。 负 载 是 每 天 大 概 60 000~100 000 个 GROUP BY 查询 。 


用 于 分 布 的 GROUP BY 的 索引 也 是 部 署 在 先前 我 们 提 到 的 同一 个 
搜索 集群 上 -有 着 6 台 机 器 ，24 个 逻辑 CPU。 相 对 存储 了 1.5TB 文 本 
的 数据 库 而 言 ， 这 只 是 主要 搜索 负载 的 一 个 零头 。 


Sphinx 替代 了 MySQL 的 精确 、 缓 慢 、 单 CPU 的 计算 方式 ， 转 而 
用 近似 、 快 速 、 分 布 式 的 计算 方式 。 所 有 会 引入 近似 错误 的 因素 都 会 


存在 : 输入 数据 常常 包含 太 多 的 行 ， 以 至 于 无 法 放 入 “排序 缓冲 区 ”里 
(我 们 使 用 的 是 一 个 固定 的 10 万 行 的 RAM) ， 我 们 使 用 了 
COUNT(DISTINCT)， 结 果 集 是 通过 网 络 聚 合 的 。 除 此 以 外 ， 对 于 结 
果 集 里 的 前 10 人 1000 组 一 一 
~ 100% BY ETA. 


索引 的 数据 跟 普通 全 文 搜索 用 的 数据 很 不 一 样 。 它 里 面 有 巨额 的 
文档 和 关键 字 ， 尽 管 文档 都 非常 小 。 文 档 的 编号 也 是 非 连续 的 ， 因 为 
它 使 用 的 是 一 种 特殊 的 编号 约定 (综合 了 源 服务 器 、 源 表 和 主键 ) ， 
因而 无 法 用 32 位 来 存储 。 巨 大 数量 的 搜索 “关键 字 ” 也 会 引发 频繁 的 
CRC32 冲突 (Sphinx 用 CRC32 把 关键 字 映 射 到 内 部 词语 的 ID) 。 因 为 
这 些 原因 ， 我 们 只 能 被 迫 在 内 部 到 处 使 用 64 位 的 标识 符 。 


系统 目前 的 性 能 很 让 人 满意 。 对 于 最 复杂 的 域名 ， 完 成 一 次 查询 
的 时 间 通 常 是 0.1~1.0s。 


以 下 就 是 从 这 个 案例 里 学 到 的 经 验 。 


。 对 于 GROUP BY 查询 ， 可 以 牺牲 掉 一 些 精度 yl eet 
。 对 于 大 量 文 本 的 集合 或 者 适当 大 小 的 特殊 数据 集 能 要 用 64 位 
标识 符 。 


Grouply.com 对 联接 查询 的 优化 


Grouply (http:/www.grouply.com) 构建 了 一 个 基于 Sphinx 的 解决 
方案 来 搜索 几 百 万 行 的 标签 信息 数据 库 ， 其 中 利用 了 Sphinx 的 MVA 支 
持 。 为 了 高 可 扩展 性 ， 数 据 库 被 分 解 到 许多 物理 服务 器 上 ， 因 而 对 跨 


不 同 服 务 器 的 表 的 查询 是 必需 的 。 然 而 任意 大 规模 的 联接 是 不 可 能 
的 ， 因 为 会 有 太 多 的 服务 器 、 数 据 库 和 表 参 与 执行 。 


Grouply 使 用 Sphinx 的 MVA 特 性 来 存储 消息 标签 。 标 签 列表 通过 
PHP 的 API 从 Sphinx 集 群 中 获取 。 这 替代 了 从 MySQL 服 务 器 来 的 多 个 
顺序 的 SELECT。 同 时 ， 为 了 减少 SQL 查询 的 数量 ， 某 些 特定 用 于 展 
现 的 数据 (例如 ， 最 后 读 取 消息 的 一 小 部 分 用 户 的 列表 ) 同样 存储 在 
单独 的 MVA 属 性 中 ， 并 且 通 过 Sphinx 访 问 。 


这 里 有 两 项 创新 点 : 使 用 了 Sphinx 预 先 构 建 JOIN 结 果 ， 并 且 使 用 
分 布 式 功能 合并 了 分 散在 各 个 数据 块 上 的 数据 。 只 使 用 MySQL 是 不 可 
能 做 到 这 些 的 。 高 效 的 归并 要 求 数据 能 够 分 拆 到 尽 可 能 少 的 物理 服务 
器 和 表 上 ， 但 这 又 会 损害 可 扩展 性 和 可 扩充 性 。 


从 本 案例 中 学 到 的 经 验 如 下 。 


。 Sphinx 能 够 用 于 有 效 地 聚合 高 度 分 区 化 的 数据 。 
。 MVA 能 够 用 于 存储 和 优化 预先 构建 的 JOIN 结 果 。 


总 结 


在 本 附录 里 ， 我 们 只 是 简要 地 讨论 了 Sphinx 全 文 搜索 系统 。 为 了 
缩短 篇 幅 ， 我 们 特意 略 过 了 关于 Sphinx 其 他 许多 功能 特性 的 讨论 ， 例 
如 对 HTML 索引 的 支持 、 对 MyISAM 有 更 好 支持 的 范围 搜索 、 词 法 和 
同义词 的 支持 、 前 缀 和 中 缀 索引 以 及 CJ 索 引 。 不 过 ， 这 个 附录 应 该 
已 经 给 了 你 一 些 关 于 Sphinx 如 何 高 效 解决 真实 世界 各 种 问题 的 启发 。 
它 并 不 限于 做 全 文 搜索 ， 还 能 解决 许多 传统 SQL 的 老 难题 。 


Sphinx 既 不 是 一 颗 银 弹 ， 也 不 是 MySQL 的 一 个 替代 品 ， 但 是 在 许 
多 应 用 案例 里 (对 于 现代 Web 应 用 已 经 变 得 很 常见 ) ， 它 可 以 被 当 作 
MySQL 很 有 用 的 补充 。 你 可 以 简单 地 用 它 来 减轻 一 些 工作 的 负担 ， 甚 
至 为 你 的 应 用 创造 新 的 可 能 性 。 


你 可 以 从 http:/www.sphinxsearch.com 下 载 Sphinx， 另 外 ， 别 忘记 
分 享 你 自己 的 使 用 心得 。 


(1) 详情 参考 http://en.wikipedia.org/wiki/Okapi_BM25 
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UNION limitations 
query 
complex queries versus many queries 


COUNT) aggregate function 


join decomposition 
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mk-parallel-restore tool 

mk-query-digest tool 

mk-slave-prefetch tool 

pt-archiver 

pt-collect 

pt-deadlock-logger 

pt-diskstats 

pt-duplicate-key-checker 

pt-fifo-split 


pt-find 


pt-heartbeat 
pt-index-usage 
pt-kill 
pt-log-player 
pt-mext 
pt-mysql-summary 
pt-online-schema-change 
pt-pmp 
pt-query-advisor 
pt-query-digest 
extracting from comments 
profiling 
query log 
slow query logging 
pt-sift 
pt-slave-delay 


pt-slave-restart 


pt-stalk 
pt-summary 
pt-table-checksum 
pt-table-sync 
pt-tcp-model 
pt-upgrade 
pt-visual-explain 
Percona tools 
Percona XtraBackup 
Percona XtraDB Cluster 
performance optimization 
plotting metrics 
profiling 
SAN 
views and 
Performance Schema 


Perl scripts 


Perldoc 

perror utility 

persistent connections 
persistent memory 
pessimistic concurrency control 
phantom reads 

PHP profiling tools 
phpMyAdmin tool 
phrase proximity ranking 
phrase searches 

physical reads 

physical size of disk 
pigz tool 

“pileups” 

Pingdom 

pinging 


Planet MySQL blog aggregator 


planned promotions 
plugin-specific variables 
plugins 

point-in-time recovery 
poor man's profiler 

port forwarding 
possible_keys column 
post-mortems 
PostgreSQL 

potential cache size 
power grid 

preferring a join 

prefix indexes 
prefix-compressed indexes 
preforking 
pregenerating content 


prepared statements 


preprocessor 
Preston, W. Curtis 
primary key 
PRIMARY KEY constraint 
priming the cache 
PROCEDURE ANALYSE command 
procedure plugins 
processor speed 
profiling 
and application speed 
applications 
diagnosing intermittent problems 
interpretation 
MySQL queries 
optimization through 
single queries 


tools 


promotions of replicas 
propagation of changes 
proprietary plugins 
proxies 

pruning 

pt-archiver tool 
pt-collect tool 
pt-deadlock-logger tool 
pt-diskstats tool 
pt-duplicate-key-checker tool 
pt-fifo-split tool 

pt-find tool 
pt-heartbeat tool 
pt-index-usage tool 
pt-kill tool 
pt-log-player tool 


pt-mext tool 


pt-mysql-summary tool 
pt-online-schema-change tool 
pt-pmp tool 

pt-query-advisor tool 
pt-query-digest (see Percona Toolkit) 
pt-sift tool 

pt-slave-delay tool 

pt-slave-restart tool 

pt-stalk tool 

pt-summary tool 

pt-table-checksum tool 
pt-table-sync tool 

pt-tcp-model tool 

pt-upgrade tool 

pt-visual-explain tool 

PURGE MASTER LOGS command 


purging old binary logs 


pushdown joins 
Q 
Q mode 
Q4M storage engine 
Qcache_lowmem_prunes variable 
query cache 
alternatives to 
configuring and maintaining 
InnoDB and the 
memory use 
optimizations 
when to use 
query execution 
MySQL client/server protocol 
optimization process 
query cache 


query execution engine 


query logging 
query optimization 
complex queries versus many queries 
COUNTO aggregate function 
join decomposition 
limitations of MySQL 
optimizing data access 
reasons for slow queries 
restructuring queries 
query states 
query-based splits 
querying across shards 
query_cache_limit variable 
query_cache_min_res_unit value variable 
query_cache_size variable 
query_cache_type variable 


query_cache_wlock_invalidate variable 


queue scheduler 

queue tables 

queue time 

quicksort 

R 

R-Tree indexes 

Rackspace Cloud 

RAID 
balancing hardware and software 
configuration and caching 
failure, recovery, and monitoring 
moving files from flash to 
not for backup 
performance optimization 
splits 
with SSDs 


RANDO) function 


random read-ahead 
random versus sequential I/O 
RANGE COLUMNS type 
range conditions 
raw file 
backup 
restoration 
RDBMS technology 
RDS (Relational Database Service) 
read buffer size 
READ COMMITTED isolation level 
read locks 
read threads 
READ UNCOMMITTED isolation level 
read-ahead 
read-around writes 


read-mostly tables 


read-only variable 
read-write splitting 
read_buffer_size variable 
Read_Master_Log_Pos 
read_rnd_buffer_size variable 
real number data types 
rebalancing shards 
records_in_range() function 
recovery 

from a backup 

defined 

defining requirements 

more advanced techniques 
recovery point objective (RPO) 
recovery time objective (RTO) 
Red Hat 


Redis 


redundancy, replication-based 

Redundant Array of Inexpensive Disks (see RAID) 
redundant indexes 

ref column 


Relational Database Index Design and the Optimizers (Lahdenmaki & 
Leach) 


Relational Database Service (RDS), Amazon 
relay log 

relay-log.info file 

relay_log variable 

relay_log_purge variable 
relay_log_space_limit variable 
RELEASE_LOCK() function 

reordering joins 

REORGANIZE PARTITION command 
REPAIR TABLE command 


repairing MyISAM tables 


REPEATABLE READ isolation level 
replica hardware 
replica shutdown, unexpected 
replicate_ignore_db variable 
replication 
administration and maintenance 
advanced features in MySQL 
backing up configuration 
and capacity planning 
changing masters 
checking consistency of 
checking for up-to-dateness 
configuring master and replica 
creating accounts for 
custom solutions 
filtering 


how it works 


initializing replica from another server 
limitations 

master and multiple replicas 

master, distribution master, and replicas 
master-master in active-active mode 
master-master in active-passive mode 
master-master with replicas 

measuring lag 

monitoring 

other technologies 

problems and solutions 

problems solved by 

promotions of replicas 

recommended configuration 

replica consistency with master 
replication files 


resyncing replica from master 


ring 

row-based 

sending events to other replicas 

setting up 

speed of 

splitting reads and writes in 

starting the replica 

Statement-based 

status 

switching master-master configuration roles 

topologies 

tree or pyramid 
REPLICATION CLIENT privilege 
REPLICATION SLAVE privilege 
replication-based redundancy 
RESET QUERY CACHE command 


RESET SLAVE command 


resource consumption 
response time 
restoring 

defined 

logical backups 
RethinkDB 
ring replication 
ROLLBACK command 
round-robin database (RRD) files 
row fragmentation 
row locks 
ROW OPERATIONS 
row-based logging 
row-based replication 
rows column 
rows examined, number of 


rows returned, number of 


ROW_COUNT command 
RPO (recovery point objective) 
RRDTool 
rsync 
RTO (recovery time objective) 
running totals and averages 
S 
safety and sanity settings 
Sahibinden.com 
SandForce 
SANs (storage area networks) 
Sar 
sargs 
SATA SSDs 
scalability 

by clustering 


by consolidation 


frequency 

and load balancing 

mathematical definition 

multiple CPUs/cores 

planning for 

preparing for 

“scale-out” architecture 

scaling back 

scaling out 

scaling pattern 

scaling up 

scaling writes 

Sphinx 

universal law of 
scalability measurements 
ScaleArc 


ScaleBase 


ScaleDB 
scanning data 
scheduled tasks 
schemas 
changes 
design 
normalized and denormalized 
Schooner Active Cluster 
scope 
scp 
search engine, selecting the right 
search space 
searchd, Sphinx 
secondary indexes 
security, connection management 
sed 


segmented key cache 


Segregating hot data 
SELECT command 
SELECT FOR UPDATE command 
SELECT INTO OUTFILE command 
SELECT types 
selective replication 
selectivity, index 
select_type column 
SEMAPHORES 
sequential versus random I/O 
sequential writes 
SERIALIZABLE isolation level 
serialized writes 
server 

adding/removing 

configuration, backing up 


consolidation 


INFORMATION_SCHEMA database 
MySQL configuration 
PERFORMANCE_SCHEMA database 
profiling and speed of 
server-wide problems 
setting optimization 
SHOW ENGINE INNODB MUTEX command 
SHOW ENGINE INNODB STATUS command 
SHOW PROCESSLIST command 
SHOW STATUS command 
Status variables 
workload profiling 

server-side prepared statements 

service time 

session scope 

session-based splits 


SET CHARACTER SET command 


SET GLOBAL command 

SET GLOBAL SQL_SLAVE_SKIP_COUNTER command 
SET NAMES command 

SET NAMES utf8 command 

SET SQL_LOG_BIN command 

SET TIMESTAMP command 

SET TRANSACTION ISOLATION LEVEL command 
SET type 

SetLimits() function 

SetMaxQueryTime() function 

SeveralNines 

SHA1() function 

Shard-Query system 

sharding 

shared locks 

shared storage 


SHOW BINLOG EVENTS command 


SHOW commands 

SHOW CREATE TABLE command 

SHOW CREATE VIEW command 

SHOW ENGINE INNODB MUTEX command 
SHOW ENGINE INNODB STATUS command 
SHOW FULL PROCESSLIST command 
SHOW GLOBAL STATUS command 

SHOW INDEX command 

SHOW INDEX FROM command 


SHOW INNODB STATUS command (see SHOW ENGINE INNODB 
STATUS command) 


SHOW MASTER STATUS command 
SHOW PROCESSLIST command 
SHOW PROFILE command 

SHOW RELAYLOG EVENTS command 
SHOW SLAVE STATUS command 


SHOW STATUS command 


SHOW TABLE STATUS command 
SHOW VARIABLES command 
SHOW WARNINGS command 
signed types 

single-component benchmarking 
single-level cell (SLC) 

single-shard queries 
single-transaction variable 
skip_innodb variable 
skip_name_resolve variable 
skip_slave_start variable 
slavereadahead tool 
slave_compressed_protocol variable 
slave_master_info variable 
slave_net_timeout variable 
Slave_open_temp_tables variable 


SLC (single-level cell) 


Sleep state 

SLEEP() function 
sleeping before entering queue 
slots 

slow queries 
SMALLBLOB type 
SMALLINT type 
SMALLTEXT type 
Smokeping tool 
snapshots 

Solaris SPARC hardware 
Solaris ZFS filesystem 
solid-state drives (SSD) 
solid-state storage 

sort buffer size 

sort optimizations 


sorting 


sort_buffer_size variable 

Souders, Steve 

SourceForge 

SPARC hardware 

Spatial indexes 

Sphinx 
advanced performance control 
applying WHERE clauses 
architectural overview 
efficient and scalable full-text searching 
filtering 
finding top results in order 
geospatial search functions 
installation overview 
optimizing GROUP BY queries 
optimizing selects on Sahibinden.com 


optimizing sharded JOIN queries on Grouply.com 


phrase proximity ranking 
searching 
special features 
SphinxSE 
support for attributes 
typical partition use 
Spider storage engine 
spin-wait 
spindle rotation speed 
splintering 
split-brain syndrome 
splitting reads and write in replication 
Splunk 
spoon-feeding 
SQL and Relational Theory (Date) 
SQL Antipatterns (Karwin) 


SQL dumps 


SQL interface prepared statements 
SQL slave thread 

SQL statements 

SQL utilities 

sql-bench 

SQLyog tool 

SQL_BIG_RESULT hint 
SQL_BUFFER_RESULT hint 
SQL_CACHE hint 

SQL_CACHE variable 
SQL_CALC_FOUND_ROWS hint 
SQL_CALC_FOUND_ROWS variable 
sql_mode 

SQL_MODE configuration variable 
SQL_NO_CACHE hint 
SQL_NO_CACHE variable 


SQL_SMALL_RESULT hint 


Squid 

SSD (solid-state drives) 
SSH 

staggering numbers 
stale-data splits 

“stalls” 

Starkey, Jim 

START SLAVE command 
START SLAVE UNTIL command 
Start-position variable 
statement handles 
statement-based replication 
Static optimizations 

Static query analysis 

STEC 

STONITH 


STOP SLAVE command 


stopwords 
storage area networks (SANs) 
storage Capacity 
storage consolidation 
storage engine API 
storage engines 
Archive 
Blackhole 
column-oriented 
community 
and consistency 
CSV 
Falcon 
Federated 
InnoDB 
Memory 


Merge 


mixing 

MyISAM 

NDB Cluster 

OLTP 

ScaleDB 

XtraDB 

stored code 

Stored Procedure Library 
stored procedures and functions 
stored routines 

strace tool 
STRAIGHT_JOIN hint 
string data types 

string locks 

stripe chunk size 
subqueries 


SUBSTRING() function 


sudo rules 

SUMO) function 

summary tables 

Super Smack 

surrogate keys 

Swanhart, Justin 

Swapping 

Switchover 

synchronization, two-way 
synchronous MySQL replication 
sync_relay_log variable 
sync_relay_log_info variable 
sysbench 

SYSDATE() function 
sysdate_is_now variable 
system of record approach 


system performance, benchmarking 


system under test (SUT) 
system variables 
T 
table definition cache 
tables 
building a queue 
cache memory 
column 
conversions 
derived 
finding and repairing corruption 
INFORMATION_SCHEMA in Percona Server 
locks 
maintenance 
merge 
partitioned 


reducing to an MD5 hash value 


SELECT and UPDATE on 


SHOW TABLE STATUS output 


splitting 

statistics 

tablespaces 

views 
table_cache_size variable 
tagged cache 
TCP 
tcpdump tool 
tcp_max_syn_backlog variable 
temporal computations 
temporary files and tables 
TEMPTABLE algorithm 
Texas Memory Systems 
TEXT type 


TEXT workload, optimizing for 


Theory of Constraints 
third-party storage engines 
thread and connection statistics 
thread cache memory 
threaded discussion forums 
threading 
Threads_connected variable 
Threads_created variable 
Threads_running variable 
thread_cache_size variable 
throttling variables 
throughput 

tickets 

time to live (TTL) 
time-based data partitioning 
TIMESTAMP type 


TIMESTAMPDIFF() function 


TINY BLOB type 
TINYINT type 
TINYTEXT type 
Tkachenko, Vadim 
tmp_table_size setting 
TokuDB 
TO_DAYS() function 
TPC Benchmarks 

dbt 

TPC-C 

TPC-H 

TPCC-MySQL tool 
transactional tables 
transactions 

ACID test 

deadlocks 


InnoDB 


isolation levels 

logging 

in MySQL 

and storage engines 
transfer speed 
transferring large files 
transparency 
tree or pyramid replication 
tree-formatted output 
trial-and-error troubleshooting 
triggers 
TRIM command 
Trudeau, Yves 
tsql2mysq| tool 
TTL (time to live) 
tunefs 


Tungsten Replicator, Continuent 


“tuning” 

turbo boost technology 
type column 

U 

Ubuntu 

UDF Library 

UDFs 

unarchiving 
uncommitted data 
uncompressed files 
undefined server IDs 
underutilization 
UNHEX() function 
UNION ALL query 
UNION limitations 
UNION query 


UNION syntax 


UNIQUE constraint 
unit of sharding 
Universal Scalability Law (USL) 
Unix 
UNIX_TIMESTAMP() function 
UNLOCK TABLES command 
UNSIGNED attribute 
“unsinkable” systems 
unused indexes 
unwrapping 
updatable views 
UPDATE command 
UPDATE RETURNING command 
upgrades 

replication before 

validating MySQL 


USE INDEX hint 


user logs 

user optimization issues 

user Statistics tables 
user-defined functions (UDFs) 
user-defined variables 
USER_STATISTICS tables 
“Using filesort” value 

“Using index” value 

USING query 

“Using temporary” value 
“Using where” value 

USL (Universal Scalability Law) 
UTF- 

utilities, SQL 

UUIDQ function 

UUID_ SHORTO function 


V 


Valgrind 

validating MySQL upgrades 

VARCHAR type 

variables 
assignments in statements 
setting dynamically 
user-defined 

version-based splits 

versions 
and full-text searching 
history of MySQL 
improvements in MySQL 5. 
old row 
replication before upgrading 
version-specific comments 

vgdisplay command 


views 


Violin Memory 

Virident 

Virtual IP addresses 
Virtualization 

vmstat tool 

volatile memory 

VoltDB 

Volume groups 
VPForMySQL storage engine 
WwW 

Wackamole 

waiters flag 

warmup 

wear leveling 

What the Dog Saw (Gladwell) 
WHERE clauses 


whole number data types 


Widenius, Monty 

Windows 

WITH ROLLUP variable 
Workbench Utilities, MySQL 
working concurrency 
working sets of data 
workload-based configuration 
worst-case selectivity 

write amplification 

write cache and power failure 
write locks 

write synchronization 

write threads 

write-ahead logging 
write-invalidate policy 
write-set replication 


write-update 


writes, scaling 
WriteThrough vs. WriteBack 
X 

X-25E drives 

X.509 certificates 

x86 architecture 

XA transactions 

xdebug 

Xeround 

xhprof tool 

XtraBackup, Percona 
XtraDB Cluster, Percona 
Y 

YEAR() function 

Z 

Zabbix 


Zenoss 


ZFS filer 
ZFS filesystem 
zlib 


Zmanda Recovery Manager (ZRM) 
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MySQL DBA， 在 运 维 MySQL 的 过 程 中 对 MySQL 和 InnoDB 的 一 些 功 能 
和 缺陷 进行 了 补充 ， 编写 了 多 主 复制 和 数据 闪 回 等 补丁 。 目 前 在 阿里 
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